主要包括数据清洗、数据集成、数据变幻和数据规约。
数据清洗
删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
缺失值处理
方法:删除记录、数据差补和不处理
数据插补方法:均值/中位数/众数、固定值、最近临插补、回归、插值(拉格朗日插值法、牛顿插值法)
异常值处理
方法:删除含有异常值的记录、视为缺失值、平均值修正、不处理
数据集成
将多个数据源合并存放在一个一直的数据仓库中的过程
实体识别
从不同数据源识别出现实世界的实体,统一矛盾。
常见形式:同名异义、异名同义、单位不统一
冗余属性识别
例如:同一属性出现多次、同一属性命名不一致导致重复
数据变换
对数据进行规范化处理,转换数据形式
简单函数变换
例如平方、开放、取对数、差分运算等
规范化
方法:
- 最小-最大规范化(离差标准化)
对原始数据线性变换,将数据映射到[0,1]之间 - 零-均值规范化(标准差标准化)
经过处理的数据均值为0,标准差为1 - 小数定标规范化
通过移动属性值的小数位数,将属性值映射到[-1,1]之间。
连续属性离散化
离散化过程:确定分类数、如何将连续属性映射到这些分类值
离散化方法:
- 等宽法
将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定。 - 等频法
将相同数量的记录放进每个区间。 - 基于聚类分析的方法
属性构造
利用已有属性构造出新的属性,并加入现有属性集合。
小波变换
数据规约
产生更小但是保持原数据完整性的新数据集。
意义:
- 降低无效、错误数据对建模的影响
- 减少挖掘时间
- 降低储存数据的成本
属性规约
通过属性合并来创造新属性维数,或者删除不相关属性累减少数据维数
常用方法:合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析
数据规约
通过选择替代的、较小的数据来减少数据量,包括有参数方法(线性回归、多元回归)和无参数方法(直方图、聚类、抽样)两类。
网友评论