信息熵 小结

作者: 有苦向瓜诉说 | 来源:发表于2018-10-18 14:06 被阅读4次

    各类熵的定义和计算

    1. 单个变量的信息熵的计算公式如下
      H(X) = - \sum {p({x_i})} \log (p({x_i}))~~~~(i = 1,2, \ldots ,n)

    2. 两个变量的联合熵计算公式
      H(X,Y) = - \sum_{x \in X,y \in Y} {p(x,y)} \ln (p(x,y))

    3. 条件熵是条件分布上关于起条件作用的那个随机变量取平均之后的期望值,定义为
      \begin{array}{l} H(Y|X) &= \sum_{x \in X} {p(x)H(Y|X = x)} \\ &= - \sum_{x \in X} {p(x)} \sum_{y \in Y} {p(y|x)\log p(y|x)} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \end{array}

    4. 联合熵与条件熵的关系:一对随机变量的熵等于其中一个随机变量的熵加上另一个随机变量的条件熵,即:H(X,Y) = H(X) + H(Y|X)(链式法则)。证明过程为:
      \begin{array}{l} H(X,Y) &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x,y)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)p(y|x)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= - \sum_{x \in X} {p(x)\log p(x)} - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= H(X) + H(Y|X) \end{array}

    5. 相对熵:两个随机分布之间距离的度量。
      D\left( {p||q} \right) = \sum_x {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} = {E_{p\left( x \right)}}\log \frac{{p\left( x \right)}}{{q\left( x \right)}}

    6. 互信息:互信息I(x,y)为联合分布P(x,y)和乘积分布p(x)p(y)之间的相对熵。
      \begin{array}{l} I(X;Y) &= \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} } \\ &= D(p(x,y)||(p(x)p(y)))\\ &= {E_{p(x,y)}}\log \frac{{p(X,Y)}}{{p(X)p(Y)}} \end{array}
      有表达式可知互信息具有对称性,非负性。

    7. 互信息与熵的关系:互信息是在给定另一个随机变量Y知识的条件下,X不确定度的缩减量。
      \begin{array}{l} I(X;Y) &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} \\ &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x|y)}}{{p(x)}}} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } + \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } \\ & = - \sum_{x \in X} {p(x)\log p(x)} - ( - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } )\\ &= H(X) - H(X|Y) \end{array}
      且根据互信息的对称性和联合熵与条件熵的关系H(X,Y) = H(X) + H(Y|X)可得
      \begin{array}{l} I(X;Y) = H(X) - H(X|Y)\\ I(X;Y) = H(Y) - H(Y|X)\\ I(X;Y) = H(X) + H(Y) - H(X,Y)\\ I(X;Y) = I(Y;X) \end{array}

    参考

    1. https://www.zybuluo.com/frank-shaw/note/108124
    2. https://www.zhihu.com/question/22178202
    3. 【直观详解】信息熵、交叉熵和相对熵
    4. https://blog.csdn.net/haolexiao/article/details/70142571

    相关文章

      网友评论

        本文标题:信息熵 小结

        本文链接:https://www.haomeiwen.com/subject/pbgjzftx.html