美文网首页存档
熵、信息增益、相对熵、互信息、交叉熵

熵、信息增益、相对熵、互信息、交叉熵

作者: 有机会一起种地OT | 来源:发表于2021-10-11 21:56 被阅读0次

基于熵概念的一系列指标是机器学习方法中经常使用的。这里统一做一个全面的整理。(以离散随机变量形式给出)

随机变量X,熵为
H(X)=- \sum_{x\in X}p(x)\log p(x)
是其平均不确定性的度量。

联合熵

随机变量X,Y的联合分布为p(x,y),两者的联合熵为
H(X,Y)=-\sum_{x}\sum_{y}p(x,y)\log p(x,y)

条件熵

X=x条件下的Y的熵为
H(Y|X=x)=-\sum_{y}p(y|x)\log p(y|x)
条件熵是H(Y|X=x)关于X的平均值
\begin{align} H(Y|X) & =\sum_{x}p(x)H(Y|X=x) \\ &=-\sum_{x}\sum_{y}p(x,y)\log p(y|x) \\ \end{align}

一对随机变量的熵,等于其中一个变量的熵,加上另一个的条件熵
H(X,Y)=H(X)+H(Y|X)

进而可推断得到熵的链式法则
H(X_1,X_2,\cdots,X_N)=\sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1)

信息增益

对样本总体(样本量N)有多个类i=1,\cdots.k,则样本集的信息总和为(类似总体随机变量的熵)
H_m=-\sum_{i=1}^k p_i \log p_i
p_i=\frac{N_i}{N}
对样本集进行分组j=1,\cdots.n,各组的信息量为
H_{mj}=-\sum_{j=1}^l p_{ji} \log p_{ji}
p_{ji}=\frac{N_{ji}}{N_i}
各分组的信息总和则为
\begin{align} H_m^{'}& =\sum_{j=1}^lH_{mj}\frac{N_j}{N} \\ & = -\sum_{j=1}^l \frac{N_j}{N} \sum_{i=1}^k p_{ji}\log p_{ji} \\ \end{align}
H_m-H_m^{'}称信息增益,即分组后对信息的贡献程度。

相对熵

又称KL散度,反映两个概率分布之间的差异。
同一个随机变量 x 有两个单独的概率分布P(x)Q(x),例如P是总体的真是分布,Q是来自数据的理论分布,用来近似P。所以机器学习分类问题评估label与predicts差距时,常使用KL散度(进一步实际使用交叉熵,见下文)。
D(p||q)=\sum_xp(x)\log\frac{p(x)}{q(x)}

当两个随机分布相同时,相对熵为0;两者差异越大,相对熵越大。
但相对熵不满足对称性,D(p||q)\neq D(q||p),且不满足三角不等式,因此其不是一个距离测度。

互信息

一个随机变量包含的关于另一个随机变量的信息量的度量。
\begin{align} L(X;Y)&=D(p(x,y)||p(x)p(y)) \\ &=\sum_x\sum_y p(x,y)\log\frac{p(x,y)}{p(x)p(y)}\\ \end{align}
有如下性质

  • L(X;Y)=H(X)+H(Y)-H(X,Y)
    X含有的Y的信息等于Y中含有的X的信息
  • L(X;X)=H(X)
    有时熵称为自信息
  • L(X;Y)\geq 0
    等号成立的条件是X,Y相互独立
  • L(X_1,X_2,\cdots,X_N;Y)=\sum_{I=1}^n L(X_i;Y|X_{i-1},\cdots,X_1)
    互信息的链式法则
交叉熵

也度量两个概率分布的差异性
H(p,q)=\sum_x p(x)\log \frac1{q(x)}
是相对熵的一部分
\begin{align} D(p||q)&=\sum_x p(x)\log p(x) + H(p,q)\\ &=H(p(x)) + H(p,q)\\ \end{align}
在机器学习分类问题评估label与predicts之间差距时,常直接用交叉熵作为损失函数,而不是KL散度,因为H(p(x))是不变的。

相关文章

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 熵、信息增益、相对熵、互信息、交叉熵

    基于熵概念的一系列指标是机器学习方法中经常使用的。这里统一做一个全面的整理。(以离散随机变量形式给出) 熵 随机变...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 熵、相对熵、互信息、交叉熵

    西瓜书、花书第二部分以及李航的《统计学习方法》已经大概翻看了一遍,感觉算是有了一定的机器学习理论基础。当然,以上书...

  • 决策树与随机森林(一)

    转自小象学院 我的学习笔记 1. 复习信息熵:熵,联合熵、条件熵、互信息 2. 决策树学习算法:信息增益 | ID...

  • 条件熵,相对熵,交叉熵,联合熵,信息增益

    1 条件熵 1.1 条件熵的定义 给定的条件下,的条件概率分布的熵对的期望;条件熵表示在已知随机变量的条件下随机变...

  • 信息熵、交叉熵、相对熵

    1 信息熵 信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。 1.1 举例 题...

  • 信息熵/相对熵/交叉熵

    信息熵 信息熵也被称为熵,用来表示所有信息量的期望。 其中X是一个离散型随机变量。 相对熵 相对熵即KL散度。如果...

网友评论

    本文标题:熵、信息增益、相对熵、互信息、交叉熵

    本文链接:https://www.haomeiwen.com/subject/xwlroltx.html