美文网首页
树模型缺失值处理总结

树模型缺失值处理总结

作者: 文哥的学习日记 | 来源:发表于2018-10-09 00:13 被阅读420次

    本篇文章来总结一下树模型缺失值处理的方法

    1、决策树

    对普通的决策树来说,缺失值需要注意三个方面的问题:

    1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?
    2. 在建树过程中,给定划分属性,若样本在该属性上的值是缺失的,那么该如何对这个样本进行划分?
    3. 训练完成,给测试集样本分类,有缺失值怎么办?

    针对前两个问题,可以参考文献:https://blog.csdn.net/u012328159/article/details/79413610

    针对第三个问题,通常选择样本数最多的特征值方向。

    2、XGBoost

    XGBoost处理缺失值,是将所有有缺失值的数据捆绑在一起,比较将这些数据都放入左子树 和都放入右子树时的损失大小。

    参考文献

    1、决策树(decision tree)(四)——缺失值处理:https://blog.csdn.net/u012328159/article/details/79413610
    2、怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感呢?:https://www.zhihu.com/question/58230411

    相关文章

      网友评论

          本文标题:树模型缺失值处理总结

          本文链接:https://www.haomeiwen.com/subject/hjssaftx.html