数据挖掘中的数据清洗方法

admin • 2018年5月14日下午3:53 • 学术报告 • 阅读 3728

数据清洗是数据挖掘工作中很重要的一部分工作，目的是解决数据的质量问题，将“脏”数据变成标准的、干净的数据，更加适合挖掘。本次报告从预处理阶段、缺失值处理、重复数据清理、格式清洗、异常值处理、数据转化等6个方面详细介绍常用的数据清洗方法。

原创文章，作者：admin，如若转载，请注明出处：https://www.isclab.org.cn/2018/05/14/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e4%b8%ad%e7%9a%84%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e6%96%b9%e6%b3%95/

admin

GBDT梯度提升决策树

上一篇 2018年5月7日上午9:27

梯度消失和梯度爆炸的原因及解决方案

下一篇 2018年5月21日上午10:03

学术报告

EM算法的应用——GMM的参数估计

EM（Expectation-maximization）算法是机器学习十大算法之一。…

2014年12月11日
15.3K
学术报告

程序崩溃的根本原因分析

程序崩溃的根本原因分析技术旨在通过分析崩溃时的输入数据，自动推断并定位导致崩溃的根本原因所在的位置，辅助开发人员快速修复软件缺陷。本次报告介绍了2个利用谓词进行程序崩溃的根本原因分…

2024年7月2日
13.1K
学术报告

文本生成中的幻觉

本次报告讲解了文本生成中的幻觉问题。首先从文本生成的基本原理出发引入到幻觉问题，着重介绍了幻觉的概念、产生原因以及解决方法。然后从添加外部信息和幻觉数据处理两个角度入手分别介绍了K…

2023年8月20日
03.2K
学术报告

视频深度伪造及检测技术——攻与防

摘要：本报告介绍了视频深度伪造的基本算法，针对算法中存在的3个问题，重点讲述了在小样本条件下的域迁移学习生成伪造视频，并通过攻防对抗的概念引出了伪造视频检测算法，阐明针对伪造视频中…

2023年2月20日
03.5K
学术报告

Agent or not？从程序自动修复评估智能体

本次报告在程序自动修复场景评估智能体，首先以OpenClaw为例引出Agent，阐释智能体与程序自动修复的内涵、背景及SWE-bench、ACI等基础；随后重点介绍SWE-agen…

2026年3月9日
03.4K
主题排序算法

本次报告主要讲解了主题排序算法，通过对pagerank算法以及topic sensitive pagerank算法的原理介绍，引出了…

学术报告 2018年3月6日
03.5K
学术报告

开放式信息抽取技术

本报告介绍了开放式信息抽取（OIE）的基本概念，展示了Neural OIE的两大类方法原理，并分别讲述了基于Transformer的Nerual OIE技术和利用Meta-Lear…

2023年5月4日
03.3K
学术报告

缺乏先验知识条件下的模型窃取方法

随着机器学习的快速发展，图像分类、恶意软件识别等多个领域都通过建立机器学习模型解决相应的问题。但由于一些训练出的模型可能涉及训练数据的隐私信息与模型的商业价值，所以其安全性一直备受…

2021年4月14日
23.3K
学术报告

动态规划算法简介

1 基本概念维基百科对动态规划（Dynamic programming，DP）的定义：它是一种在数学、计算机科学和经济学中使用的，通过把原问题分解为相对简单的子问题的方式求解复杂…

2015年1月29日
03.5K
学术报告

聚类知识及其初始化问题

聚类学习作为机器学习中最为常用的算法，已经广泛的应用于许多领域。本文主要介绍聚类的一些基础知识，并且以概率聚类模型为例，并讲解一个聚类算法：基于t分布的熵惩罚最大期望算法，使大家对…

2019年8月24日
03.3K

数据挖掘中的数据清洗方法

相关推荐