美文网首页
第三章-数据预处理

第三章-数据预处理

作者: moke冲冲 | 来源:发表于2018-10-18 22:37 被阅读0次

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。


    3.1数据清洗

    数据清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值等。

    3.1.1缺失值处理

    处理缺失值的方法可分为三类:删除记录、数据插补和不处理
    常用的插补方法如下图



    插值法:拉格朗日插值法,牛顿插值法

    拉格朗日插值法详解:https://www.zhihu.com/question/58333118/answer/262507694

    插值法其实很简答:就是开开关的问题,x=x1时,y1的开关打开为1,其他y的开关关闭为0,最终值就为y1.

    3.1.2 异常值处理

    3.2 数据集成


    主要包括冗余属性识别,同名异义,同名同义,单位不统一。

    3.3数据变换

    3.3.1 简单函数变换


    3.3.3连续特征离散化

    等宽,等频,基于聚类


    3.3.4 属性构造

    3.4 数据规约

    1、合并属性
    2、逐步向前选择
    3、逐步先后选择
    4、树模型做特征选择
    5、主成分分析
    3.5 python主要用于预处理的函数



    相关文章

      网友评论

          本文标题:第三章-数据预处理

          本文链接:https://www.haomeiwen.com/subject/dyiszftx.html