第三章
为什么要进行数据预处理?
- 数据库易受噪声、缺失值和不一致数据的侵扰
- 数据库太大,且多半来自多个异种数据源
- 衡量的标准是数据质量
数据质量

都比较好理解,就不一一说明了。
数据预处理的主要步骤

数据清理
处理缺失值的方法
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 使用属性的中心度量
- 使用与给定元组属同一类的所有样本的属性均值或中位数
- 使用最有可能的值填充缺失值
什么是噪声?
噪声是被测量的变量的随机误差或方差。
如何处理噪声数据——数据光滑技术

数据清理的步骤
- 偏差检测
- 数据变换
网友评论