【数据清洗】
Part 1:缺失值处理
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值:例如将缺失值用“Unknown”表示
- 使用属性的中心度量(mean or median):对于对称数据分布使用mean,秦些数据分布使用median。
- 使用与给定元组属同一类的所有样本mean或median:例如将顾客按credit_risk分类,则用具有相同信用风险的顾客平均收入替换income中的缺失值。若给定数据分布是倾斜的,则median是更好的选择。
- 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分类。
Part 2:噪声数据的处理
<definition>噪声(noise):是被测量的变量随机误差或方差。
数据光滑技术:
- 分箱(binning):通过考查数据的近邻来光滑有序数据集。常见的:用箱均值光滑;用箱中位数光滑;用箱边界光滑。
- 回归(regression):用一个函数拟合数据来光滑数据。
- 离群点分析(outlier analysis):通过如聚类来检测离群点。
【数据集成】
Part 1:冗余和相关分析:
对于标称数据,我们使用卡方检验发现。对于数值属性,我们使用相关系数、协方差发现。
网友评论