交叉熵

作者: YoungDou | 来源:发表于2020-02-19 18:59 被阅读0次

    1.信息熵

    1948年,香农在他著名的论文“通信的数学原理”中提高了“信息熵”的概念,解决了信息度量问题,同时量化了信息的作用。
    H=\sum{p_i\log _2}p_{i}^{-1}如何理解信息熵
    当等概率情况下,一个基本事件,其信息量就为1,单位为bit,会产生2种结果。当一个事件以基本事件为参照物,那么可能出现的结果为指数型增长,即为2^n种,则信息量为\log_{2} 2^n
    当非等概率情况下如何求解不同情况的信息量呢?对于一个2^n种等概率结果,一种结果的概率是1/2^n,那么概率的导数就是结果数量,所以,信息量表达为\log_{2}p ^{-1}
    我们需要将不同情况的概率与其信息量相乘求和(各种结果信息量的平均值),可得一个事件的信息熵

    如果p(x)是连续型随机变量的概率密度分布函数,则信息熵的定义:
    H(X)=-\int\limits_{x\in X}{p\left( x \right) \log p\left( x \right)}dx
    信息熵与不确定的相关性
    情况一:假定让一个观众猜测16只球队中,那个球队是冠军,通过折半查找,需要\log {16}次,即H_{1}=4。
    情况二:假定球队包含了像西班牙、巴西、德国这样夺冠可能性大的球队,这样导致8只球队的概率并不一样。如果我们将夺冠可能性大的队伍分为一组,其余分为另外一组,这样我们不需要4次就可以猜出冠军队伍,即信息量H_{2}<4
    综上,H_{2}<H_{1},因为情况二加入了先验信息,确定性更高,熵更小。因此信息熵可以作为随机变量确定性的度量。
    同时,我们可以通过公式证明H_{2}不可能大于4。因为球队如果夺冠的可能性太大或者太低,确定性都不如输赢参半的高。

    2.相对熵

    相对熵又称KL散度,是两个随机分布间距离的度量。
    \begin{split} D_{K L}(p \| q)=&\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)\\ =&\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})-\sum_{i=1}^{n} p(x_{i}) \log q(x_{i})\\=&H_p(q)-H(p) \end{split}根据展开式,相对熵表示样本真实分布P的情况下,使用Q分布进行编码相对于使用真实分布P进行编码的差量

    3.交叉熵

    根据相对熵公式得交叉熵:
    H_p(q)=H(p)+D_{K L}(p \| q)
    当交叉熵作为损失函数时,H(p)看作常数,所以交叉熵与KL距离在行为上是等价的,都反映了分布P,Q的相似程度。

    4.运用

    需要指出的是相对熵是不对称的,即D_{K L}(p \| q)\ne D_{K L}(q \| p)
    为了让它对称,詹森和香农提出了一种计算相对熵的计算方法,将上面的不等式两边相加取平均。
    相对熵的运用主要集中在信息处理中,比如比较两篇文章词频分布的相对熵来评估,文章是否存在抄袭。另外,利用相对熵还可以得到信息检索中最重要的概念:TF-IDF,详见数学之美P108

    参考:
    吴军-数学之美(第二版)
    一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

    相关文章

      网友评论

          本文标题:交叉熵

          本文链接:https://www.haomeiwen.com/subject/rhgofhtx.html