数据预处理

作者: FreeLuo | 来源:发表于2017-06-21 15:47 被阅读0次

算法笔记（13）数据预处理及Python代码实现
kaggle竞赛：Jigsaw Unintended Bias
1分钟了解数据分析挖掘体系
机器学习笔记
数据挖掘学习笔记一
【代谢组学】代谢组学原始数据的预处理
Python数据挖掘005-数据清洗
R数据分析实战—LOL中游戏时长对双方阵营胜率的影响
es基本分词设置及基本query
TensorFlow系列专题（二）：机器学习基础

一、引述

低质量的数据导致低质量的数据挖掘结果，因此需要对数据进行预处理，提高数据质量，提高数据挖掘结果。预处理技术包含了数据清理，数据归约，数据变换。

数据清理：清楚数据中的噪声，纠正不一致。数据归约：通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变化：数据归一化，将数据压缩到较小的区间，例如0.0-1.0

可以提高涉及距离度量的挖掘算法的准确率和效率

二、数据清理

数据一般是不完整的、有噪声的和不一致的，数据清理试图填补缺失的值，光滑噪声、识别离群点，并纠正数据的不一致性。

2.1 填补缺失值方法

（1）忽略元组，（2）使用属性的中心度量（如均值或中位数）填充缺失值，（3）使用与给定元组属于同一类的所有样本的属性均值或中位数，（4）使用全局常量填充缺失值，比如使用Unknown。

2.2 光滑噪声数据

噪声是被测量的变量的随机误差或方差

（1）分箱技术：分箱方法考虑相邻的值，是一种局部平滑方法。分箱的主要目的是去噪，将连续数据离散化，增加粒度。按照取值的不同可划分为按箱平均值平滑、按箱中值平滑以及按箱边界值平滑。

假设有4 8 15 21 21 24 25 28 34等9个数，分为3箱

划分为等频的箱：箱1：4 8 15，箱2：21 21 24，箱3：25 28 34

箱均值光滑：箱1：9 9 9，箱2：22 22 22，箱3：29 29 29

箱边界光滑：箱1：4 415，箱2：21 21 24，箱3：25 25 34

（2）回归：用一个函数拟合数据来光滑数据

（3）离群点分析：通过聚类来检测离群点

（4）冗余和相关分析：若一个属性如果能由另一个或另一组属性“导出”，则这个属性就是冗余的。另外一些冗余则可以被相关分析检测到。标称数据：使用卡方检验；数值属性，使用相关系数。

标称数据的卡方检验：

对于标称数据，两个属性A和B之间的相关联系可以通过卡方检验，卡方统计检验假设A和B独立，检验基于显著水平，具有自由度(r-1)(c-1)。

卡方检验

自由度：(r-1)*(c-1)；查询卡方分布表，得到在某置信水平下的拒绝假设的值。

数值数据的相关系数

对于数值数据，我们可以通过计算属性A和B的相关系数，也叫Pearson相关系数，估计两个属性的相关度

2.3 数据规约

得到数据的规约表示，而使得信息内容的损失最小化，数据规约方法包括维规约、数量规约、数据压缩。

1 维规约：减少所考虑的属性的个数，方法包括小波变换、主成份分析(PCA)、属性子集选择和特征构造。小波变换合适于高维数据，主成份分析适合于稀释数据。属性子集选择通常使用决策树。属性构造可以帮助提高准确性和对高维数据结构的理解。

2 数量规约：使用参数或非参数模型，得到原数据的较小表示。参数模型只存放模型参数，而非实际数据。例如回归和对数线性模型，非参数模型包括直方图、聚类、抽样。抽样包括无放回的简单随机抽样，有放回的简单随机抽样，簇抽样，分层抽样

3 数据压缩：使用变换，得到元数据的规约或压缩表示，如果原数据可以有压缩后的数据重构，而不损失任何信息，则数据压缩是无损的，否则就是有损的。

2.4 数据变换

将数据变换成统一形式，使得挖掘过程可能更有效，挖掘的模式更容易理解。

数据变换策略：

1 光滑：去掉数据中的噪声，包括分箱、回归、聚类

2 属性构造：由给定的属性构造新的属性并添加到属性集中

3 聚集：对数据进行汇总或聚集

4 规范化：把属性数据按比例进行缩放

5 离散化：数值属性的原始值用区间标签或概念标签替换

6 由标称数据产生概念分层：属性如street泛化到较高的概念层如city

2.4.1 最小-最大规范化