数据挖掘中的数据清洗方法

admin • 2018年5月14日下午3:53 • 学术报告 • 阅读 1676

数据清洗是数据挖掘工作中很重要的一部分工作，目的是解决数据的质量问题，将“脏”数据变成标准的、干净的数据，更加适合挖掘。本次报告从预处理阶段、缺失值处理、重复数据清理、格式清洗、异常值处理、数据转化等6个方面详细介绍常用的数据清洗方法。

原创文章，作者：admin，如若转载，请注明出处：https://www.isclab.org.cn/2018/05/14/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e4%b8%ad%e7%9a%84%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e6%96%b9%e6%b3%95/

admin

GBDT梯度提升决策树

上一篇 2018年5月7日上午9:27

梯度消失和梯度爆炸的原因及解决方案

下一篇 2018年5月21日上午10:03

学术报告

Automated Machine Learning

机器学习是件很复杂的事情，在机器学习向更多领域扩展的时候，遇到了机器学习专家这一资源的限制。自动机器学习（A…

2019年3月4日
01.4K
学术报告

Dropout随机失活

具有大量参数的深度神经网络是非常强大的机器学习系统。然而，在这样复杂的网络中，过拟合的问题难以解决。复杂的网络结构和缓慢的运行速度导致我们很难在测试时通过组合许多不同大型神经网络的…

2022年1月21日
01.2K
Java虚拟机垃圾回收机制

Java虚拟机实现了自动内存管理机制，包括自动内存分配和自动垃圾回收，大大避免了由于代码错误导致的内存泄漏和溢出，得到大量开发者青睐…

学术报告 2017年12月18日
01.4K
学术报告

走近特定音频识别（之五）—— 音频预处理技术

上一篇博文向大家介绍了，一个典型的特定音频识别系统的原理如下图所示：特定音频识别系统原理图上图中可以看到，离线…

2014年10月28日
22.5K
学术报告

模型窃取防御：从被动溯源到主动防御

本次学术报告探讨模型窃取防御方法，重点介绍两种前沿防御方案。ModelShield采用自适应鲁棒水印技术，通过查询响应分布自动注入水印，实现被动溯源与版权验证；QUEEN则基于查询…

2025年12月8日
01.2K
学术报告

大模型在微调阶段的后门攻击

随着大语言模型的快速发展与广泛应用，其安全问题日益凸显，后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法，它们分别通过确定目标生成条件和改变Token，…

2025年11月24日
11.5K
学术报告

DNN中的理论可解释性

自DNN诞生起，人们就开始尝试对其解释。若要对DNN进行定量、严谨的解释，数学层面的理论构建是必要的。本次报告介绍了基于博弈论Shapley Value构建的DNN可解释性理论体系…

2024年1月17日
01.2K
学术报告

源代码安全补丁存在性测试

本报告围绕“源代码安全补丁存在性测试”展开，聚焦于如何自动识别开源软件中的安全补丁，解决安全补丁与普通补丁混杂、厂商静默发布、攻击窗口缩短等问题，介绍了一种结构感知的检测方法——R…

2025年7月21日
01.2K
学术报告

第三方库检测技术研究

第三方库检测技术是一个自动识别应用程序或二进制程序中，所包含的第三方库的技术。对二进制文件或APP进行分析，主要用于安全性评估、软件合规性检查以及漏洞管理。通过本次学术报告对第三方…

2025年7月15日
01.1K
学术报告

跨域开发与安全

在大型项目开发时，可能会遇到多域名或多个ip之间使用ajax异步请求进行通信的情况，默认情况下，浏览器会阻断ajax对跨域请求的读取。本此报告介绍了开发中的跨域方案和跨域方案可能产…

2020年9月14日
21.6K

数据挖掘中的数据清洗方法

相关推荐