数据挖掘中的数据清洗方法

admin • 2018年5月14日下午3:53 • 学术报告 • 阅读 2623

数据清洗是数据挖掘工作中很重要的一部分工作，目的是解决数据的质量问题，将“脏”数据变成标准的、干净的数据，更加适合挖掘。本次报告从预处理阶段、缺失值处理、重复数据清理、格式清洗、异常值处理、数据转化等6个方面详细介绍常用的数据清洗方法。

原创文章，作者：admin，如若转载，请注明出处：https://www.isclab.org.cn/2018/05/14/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e4%b8%ad%e7%9a%84%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e6%96%b9%e6%b3%95/

admin

GBDT梯度提升决策树

上一篇 2018年5月7日上午9:27

梯度消失和梯度爆炸的原因及解决方案

下一篇 2018年5月21日上午10:03

学术报告

频繁项集算法分析

一、什么是频繁项集项集是指事项的集合，而频繁项集就是频繁出现在数据集中的项集，说白了就在数据集中“出现次数足够多”的项集。其中，项集的出现频度是指包含项集的事务的数量，简称为项集…

2015年6月18日
03.4K
学术报告

大语言模型的越狱攻击

主要探讨大语言模型的越狱攻击，阐述其研究背景、意义，历史与现状。而后涉及 EnDec和 ActorAttack 算法讲解，包含算法简介，以及算法的具体流程，通过实验对比展示其性能，…

2024年12月19日
02.5K
学术报告

流式数据漂移应对方法

该报告针对流式数据中的概念漂移问题，提出了两种应对方法：PUDD利用预测不确定性实现早期漂移检测，比传统错误率更敏感；CALIPER在漂移发生后基于数据自身判断何时累积足够数据以触…

2026年5月7日
0366
学术报告

基于汇编指令嵌入的漏洞同源性判别

同源函数是由相同源码编译得到的程序函数。同源漏洞判别是漏洞挖掘的主要方法之一，用于发现已知漏洞的同源漏洞。本次报告主要汇报基于汇编指令嵌入的同源漏洞判别方法，介绍了汇编指令嵌入的基…

2021年11月8日
32.2K
学术报告

Padding–A CNN operation that cannot be ignored

本次报告主要讲述了padding的种类及其影响，介绍了卷积网络的基本概念和性质、使用padding的主要原因等，详细讲解了特征偏移和信息侵蚀的概念、表现及解决方案，最后对paddi…

2022年12月5日
12.1K
学术报告

强化学习中的信用分配

本报告围绕强化学习中的“信用分配”难题，系统梳理了延迟/稀疏奖励场景下如何精准识别关键动作的研究脉络，介绍LaRe与VinePPO两项新工作，分别利用大模型先验与无偏采样提升奖…

2026年1月12日
02.6K
学术报告

Android自定义权限及其设计缺陷

本次报告主要讲述了Android权限机制和自定义权限的相关内容。介绍了权限机制和自定义权限的基本概念，解释了权限升级漏洞的基本概念，并详细讲解了发现此类漏洞的模式测试方法，最后思考…

2022年4月17日
02.1K
学术报告

大模型在微调阶段的后门攻击

随着大语言模型的快速发展与广泛应用，其安全问题日益凸显，后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法，它们分别通过确定目标生成条件和改变Token，…

2025年11月24日
12.6K
学术报告

从任务划分就开始与众不同的元学习

meta-learning即元学习，也可以称为“learning to learn”。常见的深度学习模型，目的是学习一个用于预测的数学模型。而元学习面向的不是学习的结果，而是学习的…

2022年10月3日
12.1K
学术报告

基于图的课程推荐方法

课程推荐在人机协同、个性化学习平台等智能教育系统中具有重要价值，显著提升了模型对用户兴趣动态变化的建模能力与推荐效果。本次报告将介绍课程推荐任务，分析其研究背景与应用意义，并重点讲…

2025年4月22日
12.0K

数据挖掘中的数据清洗方法

相关推荐