美文网首页
【2018-10-01】数据预处理

【2018-10-01】数据预处理

作者: BigBigFlower | 来源:发表于2018-10-01 23:59 被阅读0次

数据质量涉及到很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

数据预处理主要任务:

(1)数据清洗

        填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性。

(i)值缺失

忽略元组

人工填写确实值

使用一个全局常量填充缺失值

使用属性的中心度量(如均值或中位数)填充缺失值

使用与给定元组属同一类的所有样本的属性均值或中位数

使用最优可能的值填充缺失值

(ii)噪声数据

分箱:通过考察数据的近邻(即周围的值)来光滑有序数据值。

回归:用函数拟合数据来光滑数据

离群点分析:通过聚类来检测离群点。

(2)数据集成

       使用多个数据源的数据时,涉及集成多个数据库、数据立方体或文件。合并来自多个数据存储的数据。

(i)实体识别问题

数据匹配

(ii)冗余和相关性分析

标称数据(一般只在有限的数据中取值,只存在是与否两种结果)==卡方检验

相依表

数据表中括号里的数据表示期望频度e

        对于自由度1,在0.001的置信水平下拒绝假设的值是10.828,大于我们的计算值,结论:性别和阅读偏好强相关。

数值属性(在无限的数据中取值,数值比较具体化)===相关系数、协方差

    计算属性A和B的相关系数(皮尔森积矩系数)估计属性的相关度:

数值数据的协方差

期望 协方差

(iii)元组重复

(iv)数据值冲突的检测和处理

(3)数据归约

得到数据集的简化表示,包括:

维归约(使用数据编码方案,得到原始数据的简化或压缩表示。ex.小波变换、主成分分析、属性集选择(从原来的属性集中导出更有用的小属性集,(逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除组合、决策树归纳)))

数量归约(使用参数模型ex.回归模型 或非参数模型 。ex.直方图)

数据压缩

(4)数据变换

策略:

光滑(去掉数据中的噪声)

属性构造(或特征构造)

聚集(对数据进行汇总或聚集)

规范化(把属性按比例缩放,使之落入一个特定的小区域,ex.最大最小规范化、z分数规范化)

数据离散化(数值属性的原始值用区间标签或概念标签替换,ex.直方图、聚类、决策树和相关分析)

由标称数据产生概念分层(属性泛化到较高的概念层。ex.由用户或专家在模式级显示的说明属性的部分序、通过显示数据分组说明分组结构的一部分、说明数据集单不说明它们的偏序、只说明部分属性集)

相关文章

网友评论

      本文标题:【2018-10-01】数据预处理

      本文链接:https://www.haomeiwen.com/subject/uugcoftx.html