美文网首页
数据挖掘中的预处理

数据挖掘中的预处理

作者: LucasX | 来源:发表于2017-04-30 15:34 被阅读20次

    【数据清洗】
    Part 1:缺失值处理

    1. 忽略元组
    2. 人工填写缺失值
    3. 使用一个全局常量填充缺失值:例如将缺失值用“Unknown”表示
    4. 使用属性的中心度量(mean or median):对于对称数据分布使用mean,秦些数据分布使用median。
    5. 使用与给定元组属同一类的所有样本mean或median:例如将顾客按credit_risk分类,则用具有相同信用风险的顾客平均收入替换income中的缺失值。若给定数据分布是倾斜的,则median是更好的选择。
    6. 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分类。

    Part 2:噪声数据的处理
    <definition>噪声(noise):是被测量的变量随机误差或方差。
    数据光滑技术:

    1. 分箱(binning):通过考查数据的近邻来光滑有序数据集。常见的:用箱均值光滑;用箱中位数光滑;用箱边界光滑。
    2. 回归(regression):用一个函数拟合数据来光滑数据。
    3. 离群点分析(outlier analysis):通过如聚类来检测离群点。

    【数据集成】
    Part 1:冗余和相关分析:
    对于标称数据,我们使用卡方检验发现。对于数值属性,我们使用相关系数、协方差发现。

    相关文章

      网友评论

          本文标题:数据挖掘中的预处理

          本文链接:https://www.haomeiwen.com/subject/dkxiwttx.html