美文网首页
信息论(熵&信息增益&增益率&gini指数)

信息论(熵&信息增益&增益率&gini指数)

作者: 田浩thao | 来源:发表于2019-06-08 14:26 被阅读0次

    1、信息熵(Ent(D))

        用来度量一组样本集合的纯度(信息熵越小,纯度越高)。
    假设在集合D中第k类的占比为p_{k}(k=1,2, \ldots,|\mathcal{Y}|),则D的信息熵为:

    \operatorname{Ent}(D)=-\sum_{k=1}^{ | \mathcal{Y |}} p_{k} \log _{2} p_{k}

    2、信息增益(Gain(D,a))

        用来表示当利用某属性(特征)对样本进行划分后,其纯度提升(一般信息增益越大,则属性划分后所获得的纯度提升越大)。

    \operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)

    上式表示对样本集合D利用属性a进行划分后的信息增益(属性a的取值有\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}),其中D^{v}表示D中所有在属性a上取值为a^{v}的样本集合。
    注:决策树ID3就是利用信息增益选择划分特征的。
    缺点:这样选择的特征偏好取值类别较多(v较大)的特征(例如某个特征的取值类别数等于样本数,则根据此特征划分之后,样本的纯度都已经达到了最大)。

    3、增益率((D,a))

        为了解决信息增益的在选择特征上的偏好,故提出增益率。

    (D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}
    其中:
    \mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}
    (上式称为a的固有属性,\mathrm{IV}(a)随着v增大而增大)

    注:决策树C4.5就是利用增益率选择划分特征的。
    缺点:这样选择的特征偏好取值类别较少(v较小)的特征。
    所以选择特征时:先利用信息增益选出高于平均水平的特征,然后再从这些特征中选择增益率最高的特征。

    4、基尼指数(Gini(D))

    \begin{equation} \begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned} \end{equation}
    通过上式可以看出,基尼指数反映的是两个样本标记不一致的概率,所以基尼指数越小,则纯度越高。

    对于特征a,其基尼指数为:
    \begin{equation} (D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right) \end{equation}
    注:CART决策树就是利用基尼指数选择划分特征的。

    相关文章

      网友评论

          本文标题:信息论(熵&信息增益&增益率&gini指数)

          本文链接:https://www.haomeiwen.com/subject/pydgtctx.html