美文网首页
信息论(熵&信息增益&增益率&gini指数)

信息论(熵&信息增益&增益率&gini指数)

作者: 田浩thao | 来源:发表于2019-06-08 14:26 被阅读0次

1、信息熵(Ent(D))

    用来度量一组样本集合的纯度(信息熵越小,纯度越高)。
假设在集合D中第k类的占比为p_{k}(k=1,2, \ldots,|\mathcal{Y}|),则D的信息熵为:

\operatorname{Ent}(D)=-\sum_{k=1}^{ | \mathcal{Y |}} p_{k} \log _{2} p_{k}

2、信息增益(Gain(D,a))

    用来表示当利用某属性(特征)对样本进行划分后,其纯度提升(一般信息增益越大,则属性划分后所获得的纯度提升越大)。

\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)

上式表示对样本集合D利用属性a进行划分后的信息增益(属性a的取值有\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}),其中D^{v}表示D中所有在属性a上取值为a^{v}的样本集合。
注:决策树ID3就是利用信息增益选择划分特征的。
缺点:这样选择的特征偏好取值类别较多(v较大)的特征(例如某个特征的取值类别数等于样本数,则根据此特征划分之后,样本的纯度都已经达到了最大)。

3、增益率((D,a))

    为了解决信息增益的在选择特征上的偏好,故提出增益率。

(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}
其中:
\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}
(上式称为a的固有属性,\mathrm{IV}(a)随着v增大而增大)

注:决策树C4.5就是利用增益率选择划分特征的。
缺点:这样选择的特征偏好取值类别较少(v较小)的特征。
所以选择特征时:先利用信息增益选出高于平均水平的特征,然后再从这些特征中选择增益率最高的特征。

4、基尼指数(Gini(D))

\begin{equation} \begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned} \end{equation}
通过上式可以看出,基尼指数反映的是两个样本标记不一致的概率,所以基尼指数越小,则纯度越高。

对于特征a,其基尼指数为:
\begin{equation} (D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right) \end{equation}
注:CART决策树就是利用基尼指数选择划分特征的。

相关文章

  • 信息论(熵&信息增益&增益率&gini指数)

    1、信息熵(Ent(D))     用来度量一组样本集合的纯度(信息熵越小,纯度越高)。假设在集合D中第k类的占比...

  • 简书书写数学公式

    决策树 熵: 条件熵: 信息增益: 信息增益比: CHAT算法基尼系数: 基尼指数Gini(D)表示集合D的不确定...

  • 机器学习之决策树

    决策树是一个递归的过程,每层使用不同判断标准。 熵 信息增益 信息增益率 GINI系数 剪枝策略 举例在这里插入图...

  • 决策树系列

    决策树: 特征选择准则 信息增益(ID3) 信息增益比(C4.5) GINI指数(用于CART中分类树生成) 剪枝...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 信息熵、条件熵、信息增益、信息增益率

    一、信息熵 1. 信息熵提出背景 我们生活在一个信息爆炸的时代,从信息学的角度来说,人类进步的本质就是不断的打...

  • 决策树算法梳理

    决策树算法梳理 1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 1.1 熵 (entropy)...

  • 信息熵与基尼指数的关系

    序 熵的概念中有信息熵、信息增益、信息增益比、基尼指数,这些统统作为决策树分裂的依据,其中,我们需要知道信息熵与基...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 2 决策树理论细节

    1 信息熵 1.1 条件熵 1.2 信息增益 1.3 信息增益率和基尼系数 2 决策树 3 决策树的评价、剪枝和过...

网友评论

      本文标题:信息论(熵&信息增益&增益率&gini指数)

      本文链接:https://www.haomeiwen.com/subject/pydgtctx.html