信息熵、联合熵、条件熵、互信息、交叉熵、相对熵理解

作者: WritingHere | 来源:发表于2023-06-11 13:47 被阅读0次

信息熵相关知识总结
一文理解机器学习中的各种熵
各种熵，条件熵，KL
机器学习-面试总结
决策树与随机森林（一）
机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵
ID3与C4.5算法
条件熵，相对熵，交叉熵，联合熵，信息增益
信息熵、条件熵、相对熵、交叉熵
信息熵，条件熵，相对熵，交叉熵

熵是信息论中的重要概念，它是对不确定性的度量，熵越大，不确定性越大。由此衍生出了条件熵、相对熵、交叉熵、互信息等概念，理解这些概念对于理解机器学习中的模型有很大的帮助，本文将对这些概念进行简单的介绍。

信息熵

信息熵是对不确定性的度量，假设随机变量 $X$ 的概率分布为 $P(X)$ ，则其信息熵为：
$H(X) = -\sum_{x\in X} P(x) \log(P(x))$

联合熵

联合熵是随机变量 $X$ 和 $Y$ 的不确定性，其定义为：
$H(X,Y) = -\sum_{x\in X, y\in Y} P(x,y)\log(P(x,y))$

条件熵

条件熵是在已知随机变量 $Y$ 的条件下，随机变量 $X$ 的不确定性，其定义为：
$H(X|Y) = H(X,Y) - H(Y)$
这个公式可以解释为， $H(X|Y)$ 是在已知 $Y$ 的条件下 $X$ 的不确定性，即 $X,Y$ 联合分布的不确定性减去 $Y$ 的不确定性。

我们可以将 $H(X|Y)$ 展开：
$H(X|Y) = -\sum_{x\in X, y\in Y} P(x,y)\log(P(x|y))$

互信息

互信息表示引入Y后，X的不确定的下降程度，也即随机变量X，Y之间的信息量，用公式表示为
$I(X;Y) = H(X) - H(X|Y)$
这个公式可以解释为， $I(X;Y)$ 是 $X$ 的不确定性减去在已知 $Y$ 的条件下 $X$ 的不确定性，即引入 $Y$ 之后， $X$ 的不确定性减少的程度。
展开这个公式：
$I(X;Y) = \sum_{x\in X, y\in Y}P(x,y) \log( \frac{P(x,y)}{P(x)P(y)} )$

交叉熵

交叉熵是用来衡量两个概率分布之间的差异，假设有两个概率分布 $P$ 和 $Q$ ，则其交叉熵为：
$CE(P, Q) = -\sum_{x\in X} P(x) \log(Q(x))$
可以将P(x)理解为真实分布，Q(x)理解为预测分布，交叉熵越小，两个概率分布越接近。
当且仅当 $P(x) == Q(x), \forall x \in X$ 时，交叉熵最小。

我们可以用拉格朗日乘子法来证明这个结论：

$\begin{aligned} &\min_{Q} CE(P, Q) \\ &\text{s.t.} \sum_{x\in X} Q(x) = 1, \sum_{x\in X} P(x) = 1, Q(x)\geq 0, P(x) \geq 0, \forall x \in X \end{aligned}$
我们可以构造拉格朗日函数：
$L(Q, \lambda) = -\sum_{x\in X} P(x) \log(Q(x)) + \lambda(\sum_{x\in X} Q(x) - 1)$
对 $Q(x)$ 求导，令导数为0，得到：
$\frac{\partial L}{\partial Q(x)} = -\frac{P(x)}{Q(x)} + \lambda = 0$
解得：
$\lambda Q(x) = P(x)$
由于 $\sum_{x\in X} P(x) = 1$ ，所以：
$1 = \sum_{x\in X} \lambda Q(x) = \lambda (\sum_{x\in X} Q(x)) = \lambda$
因此，当且仅当 $\lambda = 1即 P(x) == Q(x), \forall x \in X$ 时，交叉熵最小，最小值为 $-\sum_{x\in X} P(x) \log(P(x))$ 。

相对熵

相对熵也称为KL散度，是衡量两个概率分布之间的差异，假设有两个概率分布 $P$ 和 $Q$ ，则其相对熵为：

$\begin{aligned} KL(P || Q) &= -\sum_{x\in X} P(x)\log( \frac{Q(x)}{P(x)} ) \\ &= -\sum_{x\in X} P(x)\log(Q(x)) + \sum_{x\in X} P(x)\log(P(x)) \\ &= CE(P, Q) - H(P) \end{aligned}$

由此可知，互信息也可以写成相对熵的形式：
$I(X;Y) = KL(P(X,Y) || P(X)P(Y))$

图示

我们用一张图来表示这些概念之间的关系，如下图所示：

H(X)-信息熵
H(X,Y)-联合熵
H(X|Y)-条件熵
I(X;Y)-互信息

entropy.png

信息熵相关知识总结
前言学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...
一文理解机器学习中的各种熵
本文的目录组织如下：【1】自信息【2】熵（香农熵）【3】联合熵【4】条件熵【5】互信息（信息增益）【6】熵、联...
各种熵，条件熵，KL
熵、条件熵、交叉熵、相对熵参考《统计学习方法》李航通俗理解信息熵 - 忆臻的文章 - 知乎 https://z...
机器学习-面试总结
决策树问题 1）各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度（相对熵）熵用于衡量不确定性，所以均分的时候熵最...
决策树与随机森林（一）
转自小象学院我的学习笔记 1. 复习信息熵：熵，联合熵、条件熵、互信息 2. 决策树学习算法：信息增益 | ID...
机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵
GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...
ID3与C4.5算法
写在开始在开始决策树算法之前，我们需要准备一些信息论的知识：信息熵条件熵信息增益交叉熵相对熵信息熵 ...
条件熵，相对熵，交叉熵，联合熵，信息增益
1 条件熵 1.1 条件熵的定义给定的条件下，的条件概率分布的熵对的期望；条件熵表示在已知随机变量的条件下随机变...
信息熵、条件熵、相对熵、交叉熵
自信息简单来说，自信息表述的是随机变量的某个事件发生带来的信息量（一个事件）image-2020040322174...
信息熵，条件熵，相对熵，交叉熵
转自详解机器学习中的熵、条件熵、相对熵和交叉熵[https://www.cnblogs.com/kyrieng/p...