美文网首页
信息熵、联合熵、条件熵、互信息、交叉熵、相对熵理解

信息熵、联合熵、条件熵、互信息、交叉熵、相对熵理解

作者: WritingHere | 来源:发表于2023-06-11 13:47 被阅读0次

    熵是信息论中的重要概念,它是对不确定性的度量,熵越大,不确定性越大。由此衍生出了条件熵、相对熵、交叉熵、互信息等概念,理解这些概念对于理解机器学习中的模型有很大的帮助,本文将对这些概念进行简单的介绍。

    导航

    信息熵

    信息熵是对不确定性的度量,假设随机变量X的概率分布为P(X),则其信息熵为:
    H(X) = -\sum_{x\in X} P(x) \log(P(x))

    联合熵

    联合熵是随机变量XY的不确定性,其定义为:
    H(X,Y) = -\sum_{x\in X, y\in Y} P(x,y)\log(P(x,y))

    条件熵

    条件熵是在已知随机变量Y的条件下,随机变量X的不确定性,其定义为:
    H(X|Y) = H(X,Y) - H(Y)
    这个公式可以解释为,H(X|Y)是在已知Y的条件下X的不确定性,即X,Y联合分布的不确定性减去Y的不确定性。

    我们可以将H(X|Y)展开:
    H(X|Y) = -\sum_{x\in X, y\in Y} P(x,y)\log(P(x|y))

    互信息

    互信息表示引入Y后,X的不确定的下降程度,也即随机变量X,Y之间的信息量,用公式表示为
    I(X;Y) = H(X) - H(X|Y)
    这个公式可以解释为,I(X;Y)X的不确定性减去在已知Y的条件下X的不确定性,即引入Y之后,X的不确定性减少的程度。
    展开这个公式:
    I(X;Y) = \sum_{x\in X, y\in Y}P(x,y) \log( \frac{P(x,y)}{P(x)P(y)} )

    交叉熵

    交叉熵是用来衡量两个概率分布之间的差异,假设有两个概率分布PQ,则其交叉熵为:
    CE(P, Q) = -\sum_{x\in X} P(x) \log(Q(x))
    可以将P(x)理解为真实分布,Q(x)理解为预测分布,交叉熵越小,两个概率分布越接近。
    当且仅当P(x) == Q(x), \forall x \in X时,交叉熵最小。


    我们可以用拉格朗日乘子法来证明这个结论:

    \begin{aligned} &\min_{Q} CE(P, Q) \\ &\text{s.t.} \sum_{x\in X} Q(x) = 1, \sum_{x\in X} P(x) = 1, Q(x)\geq 0, P(x) \geq 0, \forall x \in X \end{aligned}
    我们可以构造拉格朗日函数:
    L(Q, \lambda) = -\sum_{x\in X} P(x) \log(Q(x)) + \lambda(\sum_{x\in X} Q(x) - 1)
    Q(x)求导,令导数为0,得到:
    \frac{\partial L}{\partial Q(x)} = -\frac{P(x)}{Q(x)} + \lambda = 0
    解得:
    \lambda Q(x) = P(x)
    由于\sum_{x\in X} P(x) = 1,所以:
    1 = \sum_{x\in X} \lambda Q(x) = \lambda (\sum_{x\in X} Q(x)) = \lambda
    因此,当且仅当\lambda = 1即 P(x) == Q(x), \forall x \in X时,交叉熵最小,最小值为-\sum_{x\in X} P(x) \log(P(x))


    相对熵

    相对熵也称为KL散度,是衡量两个概率分布之间的差异,假设有两个概率分布PQ,则其相对熵为:

    \begin{aligned} KL(P || Q) &= -\sum_{x\in X} P(x)\log( \frac{Q(x)}{P(x)} ) \\ &= -\sum_{x\in X} P(x)\log(Q(x)) + \sum_{x\in X} P(x)\log(P(x)) \\ &= CE(P, Q) - H(P) \end{aligned}

    由此可知,互信息也可以写成相对熵的形式:
    I(X;Y) = KL(P(X,Y) || P(X)P(Y))

    图示

    我们用一张图来表示这些概念之间的关系,如下图所示:

    • H(X)-信息熵
    • H(X,Y)-联合熵
    • H(X|Y)-条件熵
    • I(X;Y)-互信息


      entropy.png

    相关文章

      网友评论

          本文标题:信息熵、联合熵、条件熵、互信息、交叉熵、相对熵理解

          本文链接:https://www.haomeiwen.com/subject/ywgxydtx.html