美文网首页
分类算法处理缺失值

分类算法处理缺失值

作者: Phoebe_Liu | 来源:发表于2018-11-01 10:09 被阅读0次

整体而言,树模型+bayes对于缺失值都不太敏感;涉及到度量问题的模型(SVM+KNN)就相对敏感。

决策树

其实缺失值问题可以从三个方面来考虑

  1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,属性是a,b,c。在计算a属性熵时发现,第10个样本的a属性缺失,那么就把第10个样本去掉,前9个样本组成新的样本集,在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9(新样本占raw样本的比例),就是a属性最终的熵。
  2. 分裂属性选择完成,对训练样本分类,发现属性缺失怎么办?比如该节点是根据a属性划分,但是待分类样本a属性缺失,怎么办呢?假设a属性离散,有1,2两种取值,那么就把该样本分配到两个子节点中去,但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候,注意,不是每个样本都是权重为1,存在分数。
    例如:a=1的占30%,a=2的占70%.则这里可以将原来的一个样本,划分0.3个向左分支,划分0.7个向右分支。
  3. 训练完成,给测试集样本分类,有缺失值怎么办?这时候,就不能按比例分配了,因为你必须给该样本一个确定的label,而不是薛定谔的label。这时候根据投票来确定,或者填充缺失值。
  4. 简单粗暴快速的方法:利用中位数或者出现次数最多的树,替代

SVM

相关文章

  • 分类算法处理缺失值

    整体而言,树模型+bayes对于缺失值都不太敏感;涉及到度量问题的模型(SVM+KNN)就相对敏感。 决策树 其实...

  • 数据挖掘面试题

    1、k-Means算法的原理和过程2、随即森林 决策树3、二分类算法衡量标准4、对于缺失值的处理5、监督算法和非监...

  • 数据预处理中缺失值的处理

    在做数据分类时,训练数据中总会存在一些缺失值,那么怎么处理缺失值有哪些方法呢? 最简单的方法就是删除缺失值所在的数...

  • python实现随机森林算法

    用决策树实现一个根据用户的信息判断用户是否逾期的分类算法代码实现。 首先,我们对数据进行预处理,填充缺失值,数据集...

  • 非均衡数据处理--如何评价?

    ​在分类问题中, 常见的数据预处理包括: 数据缺失(Missing), 奇值处理(Outlier), 数据变换(T...

  • Series第五讲 缺失值处理

    Series第五讲 缺失值处理 本节课将讲解如何处理pandas里的缺失值 缺失值处理 Series.fillna...

  • Pandas_3 处理缺失值、数据透视表以及apply的用法

    1.处理缺失值 Pandas使用NaN(Not a Number)来表示缺失值 1.1判断是否存在缺失值以及缺失值...

  • 决策树优化

    决策树的正则化 叶子的数量作为惩罚因子,叶子越多,算法复杂度越大 分类特征的处理 特征缺失的处理

  • 总结

    决策树算法的有点 简单, 直观, 可解释性强, 建树容易 不需要预处理, 归一化, 以及处理缺失值 离散值, 连续...

  • 机器学习(1)

    一、数值型算法 1、归一化算法: 2、标准化算法: 3、 缺失值处理 二、其他1、字典数据抽取: 2、对文本进行特...

网友评论

      本文标题:分类算法处理缺失值

      本文链接:https://www.haomeiwen.com/subject/llptxqtx.html