美文网首页
机器学习的问题:缺失值的处理

机器学习的问题:缺失值的处理

作者: 3b899188980c | 来源:发表于2018-04-07 09:44 被阅读399次

    先具体地总结几类处理方法:

    1、最简单的就是用平均值、中值、分位数、众数、随机值等替代;
    2、使用其他变量做预测模型来算出缺失值。两个缺陷:如果缺失值与其他变量不相关,那样预测没有意义,但如果特别精准,说明缺失值没有必要加入模型;
    3、最精确的做法,把变量映射到高维空间。就是把是否缺失也看成数据的一维。这样做的好处就是完整保留了原始数据的全部信息,不用考虑缺失值,不用考虑线性不可分的问题,但是这种方法计算量太大,而且需要大量的样本。

    下面具体分析:

    1、缺失值较多的特征处理
    如果某个特征缺失值过大,那么我们应该考虑直接将该特征舍弃掉,这时候的特征其实已经可以看做噪声了。
    2、缺失值较少的特征处理
    直接用0去填充;用均值去填充;用上下数据进行填充;用插值法填充;用算法拟合填充;
    大部分情况下使用算法拟合来填充,考虑使用随机森林算法

    相关文章

      网友评论

          本文标题:机器学习的问题:缺失值的处理

          本文链接:https://www.haomeiwen.com/subject/bmiehftx.html