美文网首页
自信息,KL散度(相对熵),交叉熵,JS散度

自信息,KL散度(相对熵),交叉熵,JS散度

作者: winddy_akoky | 来源:发表于2019-06-17 14:55 被阅读0次

一、自信息

信息是一个很抽象的概念,如何衡量一句话或一篇文章的信息量是一个比较难的问题。有时候,人们会说一条新闻信息量很大,或认为信息量很小,但却很难描述这条信息的信息量具体是多少,为什么?直到1948年,香农提出一个“信息熵”的概念,才解决的信息的量化问题。

熵,可以理解成不确定性。比如想很衡量某一件事的信息量是多少,设该事件发生的概率为P(x),那么根据香农提出的“信息熵”,该事件的信息量可以表示成:
I(x)=-log(P(x))
上面这个式子就叫做自信息。

也就是说,某件事发生的概率越小,其信息量越大。好比有人跟你说:明天太阳从东边升起。在地球上的你来说,这显然是一句废话,信息量为零。但是如果改成:明天太阳从西面升起。这信息量分分钟上微博热搜。

根据上面的定义,就可以引出一个随机变量X的平均信息熵(期望):

H(X)=-\sum p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right),(i=1,2, \ldots, n)

随机变量的熵是随机变量不确定性的度量,它是描述一个随机变量平均所需信息量的度量。

二、KL散度(相对熵)

在信息论中,KL散度也叫相对熵,它用于衡量两个概率分布的差异性。定义如下:
D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)
其中 p(x)是目标分布,这个分布是不知道的,但是我们有属于这个分布的样本。q(x)是用于近似p(x)的分布。当这个两个分布相等时,他们的相对熵就等于0.

三、交叉熵

对KL散度做适当变形:

\begin{equation} \begin{aligned} D_{K L}(p \| q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \\ &=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{aligned} \end{equation}

前面一部分就是p(x)信息熵,而后面一部分就是交叉熵
\begin{equation} H(p, q)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \end{equation}

因为p(x)来自于真是的数据分布,因此第一部分可以看成是常数。也就说在特定条件下,交叉熵等价于KL散度。

四、JS散度

J S(P \| Q)=\frac{1}{2} K L\left(P(x)\left\|\frac{P(x)+Q(x)}{2}+\frac{1}{2} K L\left(Q(x) \| \frac{P(x)+Q(x)}{2}\right)\right.\right.

相关文章

  • 交叉熵与KL散度

    老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度 交叉熵从KL散度(相对熵)中引出,KL散度(Kullbac...

  • 面试

    最大似然 交叉熵 KL散度 相对熵 Information bottleneck

  • KL散度其实就是相对熵

    一直以为KL散度是什么新奇玩意,但是其实还是旧瓶装新酒 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵_冉茂松...

  • 自信息,KL散度(相对熵),交叉熵,JS散度

    一、自信息 信息是一个很抽象的概念,如何衡量一句话或一篇文章的信息量是一个比较难的问题。有时候,人们会说一条新闻信...

  • 机器学习相关的数学知识

    知识点理解: 信息量->熵->相对熵(KL散度)->交叉熵->分类的loss 信息量:I(x0)=−log(p(x...

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 信息熵+交叉熵+KL散度

    熵的本质是香农信息量,被用于描述一个系统中的不确定性。 在决策树算法中的信息熵: 在反向传播算法中衡量两个分布和差...

  • KL散度、JS散度、Wassertein距离

    KL散度 KL散度又称相对熵,信息散度,信息增益。KL散度是两个概率分布P和Q差别的非对称性的度量。在经典境况下,...

  • KL散度、JS散度、Wasserstein距离和WGAN

    1.KL散度 KL散度又称为相对熵,信息散度,信息增益。KL散度是是两个概率分布P和Q 差别的非对称性的度量。 K...

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

网友评论

      本文标题:自信息,KL散度(相对熵),交叉熵,JS散度

      本文链接:https://www.haomeiwen.com/subject/epwofctx.html