数据挖掘中的数据清洗方法

      数据清洗是数据挖掘工作中很重要的一部分工作,目的是解决数据的质量问题,将“脏”数据变成标准的、干净的数据,更加适合挖掘。本次报告从预处理阶段、缺失值处理、重复数据清理、格式清洗、异常值处理、数据转化等6个方面详细介绍常用的数据清洗方法。

附件-数据挖掘中的数据清洗方法.pdf

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2018/05/14/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e4%b8%ad%e7%9a%84%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e6%96%b9%e6%b3%95/

(0)
adminadmin
上一篇 2018年5月7日 上午9:27
下一篇 2018年5月21日 上午10:03

相关推荐

  • 深度半监督聚类技术

    研究深度半监督聚类方法,首先利用自编码器对高维数据降维处理,同时提取构建三种范围的约束信息:主动构建的成对约束、带标签的种子约束、簇间大小比例约束;最后融合三种约束信息指导编码器训…

    2023年4月23日
    2.0K
  • 代码异味检测

    本次学术报告对以往实验室软件系统/代码质量评估的研究方向做了一个总结并引出新的概念:代码异味检测。针对代码异味概念,生成原因和研究最新的方向进行了探讨。同时结合两篇论文,从多异味检…

    2023年6月5日
    2.2K
  • 源代码安全补丁存在性测试

    本报告围绕“源代码安全补丁存在性测试”展开,聚焦于如何自动识别开源软件中的安全补丁,解决安全补丁与普通补丁混杂、厂商静默发布、攻击窗口缩短等问题,介绍了一种结构感知的检测方法——R…

    2025年7月21日
    1.8K
  • 源代码补丁正确性测试

    源代码补丁正确性测试是自动程序修复(Automated Program Repair, APR)流程的最后一个环节,旨在验证APR所生成的补丁是否真正解决了目标缺陷且未引入新的问题…

    2025年3月10日
    1.9K
  • 语义级代码克隆检测

    代码克隆(Code Clone),是指存在于代码库中两个及两个以上相同或者相似的源代码片段, 是软件开发中的常见现象。近年来,针对Ⅳ型克隆即语义级克隆的检测技术受到了广泛关注。主要…

    2022年10月11日
    2.4K
  • 超参数优化

    本次报告介绍了超参数的概念和对模型的影响,解释了超参数与模型参数的区别,详细讲解了网格搜索、随机搜索、贝叶斯优化三种优化方法,分析其使用场景及优缺点,最后列举了三种实用的开源调优工…

    2023年1月2日
    1.9K
  • 模型窃取防御:从被动溯源到主动防御

    本次学术报告探讨模型窃取防御方法,重点介绍两种前沿防御方案。ModelShield采用自适应鲁棒水印技术,通过查询响应分布自动注入水印,实现被动溯源与版权验证;QUEEN则基于查询…

    2025年12月8日
    1.9K
  • 虚拟化云平台异常行为检测方法

    本报告对虚拟化云平台面临的安全威胁与挑战进行介绍,阐述了可用于云平台虚拟机安全检测的系统数据源,重点介绍了利用系统调用序列、系统运行日志的虚拟机异常检测方法,并且概要性介绍了多种序…

    2022年5月9日
    1.9K
  • 机器学习常用的可解释方法

    可解释性对于建立用户与决策模型之间的信任关系至关重要,提高机器学习模型的可解释性和透明性是机器学习在现实任务中进一步发展和应用的关键。本次报告带大家了解机器学习常用的可解释方法的基…

    2020年10月25日
    2.3K
  • 一段话,多个情绪?模型如何识别“情绪变化”的蛛丝马迹

    情绪变化识别在人机交互、情绪计算等对话智能领域中具有重要价值,显著增强了模型对动态语境的理解能力。本次报告将介绍对话与语音中的情绪建模任务,分析其研究背景与应用意义,并重点讲解两类…

    2025年4月14日
    2.0K