数据质量涉及到很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
数据预处理主要任务:
(1)数据清洗
填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性。
(i)值缺失
忽略元组
人工填写确实值
使用一个全局常量填充缺失值
使用属性的中心度量(如均值或中位数)填充缺失值
使用与给定元组属同一类的所有样本的属性均值或中位数
使用最优可能的值填充缺失值
(ii)噪声数据
分箱:通过考察数据的近邻(即周围的值)来光滑有序数据值。
回归:用函数拟合数据来光滑数据
离群点分析:通过聚类来检测离群点。
(2)数据集成
使用多个数据源的数据时,涉及集成多个数据库、数据立方体或文件。合并来自多个数据存储的数据。
(i)实体识别问题
数据匹配
(ii)冗余和相关性分析
标称数据(一般只在有限的数据中取值,只存在是与否两种结果)==卡方检验
相依表

对于自由度1,在0.001的置信水平下拒绝假设的值是10.828,大于我们的计算值,结论:性别和阅读偏好强相关。
数值属性(在无限的数据中取值,数值比较具体化)===相关系数、协方差
计算属性A和B的相关系数(皮尔森积矩系数)估计属性的相关度:


数值数据的协方差


(iii)元组重复
(iv)数据值冲突的检测和处理
(3)数据归约
得到数据集的简化表示,包括:
维归约(使用数据编码方案,得到原始数据的简化或压缩表示。ex.小波变换、主成分分析、属性集选择(从原来的属性集中导出更有用的小属性集,(逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除组合、决策树归纳)))
数量归约(使用参数模型ex.回归模型 或非参数模型 。ex.直方图)
数据压缩
(4)数据变换
策略:
光滑(去掉数据中的噪声)
属性构造(或特征构造)
聚集(对数据进行汇总或聚集)
规范化(把属性按比例缩放,使之落入一个特定的小区域,ex.最大最小规范化、z分数规范化)
数据离散化(数值属性的原始值用区间标签或概念标签替换,ex.直方图、聚类、决策树和相关分析)
由标称数据产生概念分层(属性泛化到较高的概念层。ex.由用户或专家在模式级显示的说明属性的部分序、通过显示数据分组说明分组结构的一部分、说明数据集单不说明它们的偏序、只说明部分属性集)
网友评论