美文网首页
3. 数据预处理

3. 数据预处理

作者: 何大炮 | 来源:发表于2018-03-28 14:48 被阅读0次

数据预处理主要包括4个部分:

  1. 数据清洗
  2. 数据集成
  3. 数据变换
  4. 数据规约

1. 数据清洗

缺失值处理:

  1. 删除数据
  2. 不处理
  3. 数据插补

插补主要包括:均值,众数,中位数插补;固定值插补;最近临插补;回归方法;插值法(拉格朗日插值法,牛顿插值法)

异常值处理:

  1. 视作缺失值
  2. 删除
  3. 平均值修正
  4. 不处理(建立在针对异常值数据集的挖掘上进行数据建模)

2. 数据集成

实体识别

统一不同数据源之间的矛盾之处

  1. 同名异义
  2. 异名同义
  3. 单位不统一

冗余属性识别

先分析,然后删除

  1. 同一属性多次出现
  2. 同一属性命名不同导致重复

3. 数据变换

简单函数变换

规范化

  1. 最大最小规范化:对原始数据进行线性变换,将数值映射到(0,1)
  2. 0-均值规范化:均值为0
  3. 小数定标规范化:通过移动小数点,使数值映射到(-1,1)之间。

连续属性的离散化

将连续属性变化为分类属性
任务:1. 确定分类数 2. 如何将这些连续属性值映射到这些分类值上。

  1. 等宽法
    将属性的值域分成具有相同宽度的区间,类似于制作频率分布表
  2. 等频法
    将相同数量的记录放进每一个空间
  3. 基于聚类分析的方法

属性构造

小波变换(信号分析手段)

4. 数据规约

产生更小却保持数据完整性的新数据集,提高数据分析和挖掘的效率。

属性规约

通过属性合并或者删除不相关属性来提高效率,找出最小属性子集,保证数据的完整性。

  1. 合并属性
  2. 逐步向前选择,逐步向后删除
  3. 决策树归纳
  4. 主成分分析

数值规约

通过选择替代的较小的数据来减少数据量,包括有参数和无参数两种方法。
有参数:用模型来评估数据,只需存放参数,无实际数据(如回归,对数线性模型)
无参数:直方图,聚类,抽样

相关文章

网友评论

      本文标题:3. 数据预处理

      本文链接:https://www.haomeiwen.com/subject/smzjcftx.html