美文网首页
信息熵 GINI系数

信息熵 GINI系数

作者: 点点渔火 | 来源:发表于2017-07-13 21:10 被阅读0次

    熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。

    信息熵的计算公式:

    信息熵

    条件熵:
    当一个特征固定以后, 结果的不确定性即为条件熵:

    条件熵

    信息增益:
    原熵-条件熵, 即为这个已确定变量给系统带来的稳定性增益:

    信息增益

    H(c) 是分类结果的gain

    当然特征带来的稳定性增益越大越好。但是有个问题, 如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多,很容易造成过拟合

    信息增益比:
    信息增益的一个大问题就是偏向选择分支多的属性导致overfitting,信息增益比公式对value值多的情况进行的惩罚处理(尽管如此,还是要剪枝)

    Infomation Gain Ratio

    H(c) 是分类类别的熵, 类别越多,熵倾向于越大;同理, H(X)是变量X的Gain, 变量X的取值越多,H(X)的值也会越大, 惩罚除数越大:

    H(X)

    在决策树算法中,ID3使用信息增益,c4.5使用信息增益比。

    Gini系数:
    CART中采用了Gini系数来构造二叉决策树, 二分类问题中,近似于熵之半,但计算要简单一些:

    Gini系数

    D表示全样本, pi表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低,最稳定。
    类似的, Gini增益:

    屏幕快照 2017-07-13 21.35.14.png

    参考:http://blog.csdn.net/bitcarmanlee/article/details/51488204

    相关文章

      网友评论

          本文标题:信息熵 GINI系数

          本文链接:https://www.haomeiwen.com/subject/opyghxtx.html