信息论（熵&信息增益&增益率&gini指数）

作者: 田浩thao | 来源:发表于2019-06-08 14:26 被阅读0次

信息论（熵&信息增益&增益率&gini指数）
简书书写数学公式
机器学习之决策树
决策树系列
决策树算法梳理
信息熵、条件熵、信息增益、信息增益率
决策树算法梳理
信息熵与基尼指数的关系
ID3与C4.5算法
2 决策树理论细节

1、信息熵（Ent(D)）

用来度量一组样本集合的纯度（信息熵越小，纯度越高）。
假设在集合D中第k类的占比为 $p_{k}(k=1,2, \ldots,|\mathcal{Y}|)$ ，则D的信息熵为：

$\operatorname{Ent}(D)=-\sum_{k=1}^{ | \mathcal{Y |}} p_{k} \log _{2} p_{k}$

2、信息增益（Gain(D,a)）

用来表示当利用某属性（特征）对样本进行划分后，其纯度提升（一般信息增益越大，则属性划分后所获得的纯度提升越大）。

$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$

上式表示对样本集合D利用属性a进行划分后的信息增益（属性a的取值有 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ），其中 $D^{v}$ 表示D中所有在属性a上取值为 $a^{v}$ 的样本集合。
注：决策树ID3就是利用信息增益选择划分特征的。
缺点：这样选择的特征偏好取值类别较多（v较大）的特征（例如某个特征的取值类别数等于样本数，则根据此特征划分之后，样本的纯度都已经达到了最大）。

3、增益率（(D,a)）

为了解决信息增益的在选择特征上的偏好，故提出增益率。

$(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
其中:
$\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$
（上式称为a的固有属性， $\mathrm{IV}(a)$ 随着v增大而增大）

注：决策树C4.5就是利用增益率选择划分特征的。
缺点：这样选择的特征偏好取值类别较少（v较小）的特征。
所以选择特征时：先利用信息增益选出高于平均水平的特征，然后再从这些特征中选择增益率最高的特征。

4、基尼指数（Gini(D)）

$\begin{equation} \begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned} \end{equation}$
通过上式可以看出，基尼指数反映的是两个样本标记不一致的概率，所以基尼指数越小，则纯度越高。

对于特征a，其基尼指数为：
$\begin{equation} (D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right) \end{equation}$
注：CART决策树就是利用基尼指数选择划分特征的。

信息论（熵&信息增益&增益率&gini指数）
1、信息熵（Ent(D)）用来度量一组样本集合的纯度（信息熵越小，纯度越高）。假设在集合D中第k类的占比...
简书书写数学公式
决策树熵：条件熵：信息增益：信息增益比: CHAT算法基尼系数：基尼指数Gini(D)表示集合D的不确定...
机器学习之决策树
决策树是一个递归的过程，每层使用不同判断标准。熵信息增益信息增益率 GINI系数剪枝策略举例在这里插入图...
决策树系列
决策树：特征选择准则信息增益（ID3）信息增益比（C4.5） GINI指数（用于CART中分类树生成）剪枝...
决策树算法梳理
信息论基础（熵联合熵条件熵信息增益基尼不纯度）信息熵：信息熵是度量样本集合纯度常用的一种指标。在信息论中...
信息熵、条件熵、信息增益、信息增益率
一、信息熵 1. 信息熵提出背景我们生活在一个信息爆炸的时代，从信息学的角度来说，人类进步的本质就是不断的打...
决策树算法梳理
决策树算法梳理 1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度） 1.1 熵（entropy）...
信息熵与基尼指数的关系
序熵的概念中有信息熵、信息增益、信息增益比、基尼指数，这些统统作为决策树分裂的依据，其中，我们需要知道信息熵与基...
ID3与C4.5算法
写在开始在开始决策树算法之前，我们需要准备一些信息论的知识：信息熵条件熵信息增益交叉熵相对熵信息熵 ...
2 决策树理论细节
1 信息熵 1.1 条件熵 1.2 信息增益 1.3 信息增益率和基尼系数 2 决策树 3 决策树的评价、剪枝和过...

信息论（熵&信息增益&增益率&gini指数）

1、信息熵（Ent(D)）

2、信息增益（Gain(D,a)）

3、增益率（(D,a)）

4、基尼指数（Gini(D)）

相关文章

信息论（熵&信息增益&增益率&gini指数）

简书书写数学公式

机器学习之决策树

决策树系列

决策树算法梳理

信息熵、条件熵、信息增益、信息增益率

决策树算法梳理

信息熵与基尼指数的关系

ID3与C4.5算法

2 决策树理论细节

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读