决策树

作者: 徐振杰 | 来源:发表于2018-10-16 14:24 被阅读0次

    1为什么CART能回归

    主要用均方差代替了基尼系数

    2缺失值处理

    当处理缺失值的时候,一般需要考虑这样两个问题:
    1.有缺失值得特征应该在什么时候被选择
    2.当被选择的特征有缺失值的时候,我们应该如何对样本进行划分

    解决第一个问题:由于C4.5是通过选择信息增益最大的值从而选择特征的,因此我们做的处理就很简单了,只用将在该特征下无缺失值的样本的比例乘上信息增益就可以了。比如得到的信息增益为Gain(a),在a特征下有5个缺失值,总样本数为15,所以最终的信息增益就是\frac{5}{15}Gain(a)

    解决第二个问题:如果该样本是缺失值,则以不同的权重分给每个子节点。比如现在有两个子节点,无缺失的样本为1,2,3,4,5,6,分别给第一个子节点1,2,3,第二个子节点4,5,还有缺失样本7,8,把7号子节点分别加入这两个子节点得到1,2,3,74,5,7。但是7号在第一类中的权重为\frac{3}{5},在第二类中权重为\frac{2}{5}

    相关文章

      网友评论

          本文标题:决策树

          本文链接:https://www.haomeiwen.com/subject/bjkhzftx.html