美文网首页
13. 信息增益率

13. 信息增益率

作者: 十里江城 | 来源:发表于2019-11-09 22:45 被阅读0次

    1) ID3:使用信息增益

    信息增益的弊端

    假设ID作为上述实例中的一个特征,对于ID有14个分支,一个分支只有一个值,概率为1
    即有些特征,其取值很多,但每个属性对应的样本个数很少,会导致“信息增益”非常大。

    2) C4.5: 使用信息增益率

    信息增益率

    信息增益率 = 信息增益 / 自身熵值, 比如ID特征自己的熵(非常大,自己很不纯),之后信息增益率变很小

    3) CART:Gini系数

    4) 决策树的评价函数

    损失函数C(T) = sum_{t (- leaf}_(N_t * H(t))
    其中叶子节点t, t的样本值N_t, 对应的熵H(t), C(t)越小越好

    5) C4.5算法:ID3的扩展

    6) 决策树处理连续值

    将连续型属性离散化,将属性值划分成不同的区间,比较各个分裂点Gain大小

    选择连续值的分界点

    贪婪法的“二分”数据集,比如十个数据划分则可能需要九个分界点

    相关文章

      网友评论

          本文标题:13. 信息增益率

          本文链接:https://www.haomeiwen.com/subject/fchobctx.html