数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。
3.1数据清洗
数据清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值等。
3.1.1缺失值处理
处理缺失值的方法可分为三类:删除记录、数据插补和不处理
常用的插补方法如下图
插值法:拉格朗日插值法,牛顿插值法
拉格朗日插值法详解:https://www.zhihu.com/question/58333118/answer/262507694
插值法其实很简答:就是开开关的问题,x=x1时,y1的开关打开为1,其他y的开关关闭为0,最终值就为y1.
3.1.2 异常值处理
3.2 数据集成
主要包括冗余属性识别,同名异义,同名同义,单位不统一。
3.3数据变换
3.3.1 简单函数变换
3.3.3连续特征离散化
等宽,等频,基于聚类
3.3.4 属性构造
3.4 数据规约
1、合并属性
2、逐步向前选择
3、逐步先后选择
4、树模型做特征选择
5、主成分分析
3.5 python主要用于预处理的函数
网友评论