数据预处理主要包括4个部分:
- 数据清洗
- 数据集成
- 数据变换
- 数据规约
1. 数据清洗
缺失值处理:
- 删除数据
- 不处理
- 数据插补
插补主要包括:均值,众数,中位数插补;固定值插补;最近临插补;回归方法;插值法(拉格朗日插值法,牛顿插值法)
异常值处理:
- 视作缺失值
- 删除
- 平均值修正
- 不处理(建立在针对异常值数据集的挖掘上进行数据建模)
2. 数据集成
实体识别
统一不同数据源之间的矛盾之处
- 同名异义
- 异名同义
- 单位不统一
冗余属性识别
先分析,然后删除
- 同一属性多次出现
- 同一属性命名不同导致重复
3. 数据变换
简单函数变换
规范化
- 最大最小规范化:对原始数据进行线性变换,将数值映射到(0,1)
- 0-均值规范化:均值为0
- 小数定标规范化:通过移动小数点,使数值映射到(-1,1)之间。
连续属性的离散化
将连续属性变化为分类属性
任务:1. 确定分类数 2. 如何将这些连续属性值映射到这些分类值上。
- 等宽法
将属性的值域分成具有相同宽度的区间,类似于制作频率分布表 - 等频法
将相同数量的记录放进每一个空间 - 基于聚类分析的方法
属性构造
小波变换(信号分析手段)
4. 数据规约
产生更小却保持数据完整性的新数据集,提高数据分析和挖掘的效率。
属性规约
通过属性合并或者删除不相关属性来提高效率,找出最小属性子集,保证数据的完整性。
- 合并属性
- 逐步向前选择,逐步向后删除
- 决策树归纳
- 主成分分析
数值规约
通过选择替代的较小的数据来减少数据量,包括有参数和无参数两种方法。
有参数:用模型来评估数据,只需存放参数,无实际数据(如回归,对数线性模型)
无参数:直方图,聚类,抽样
网友评论