信息熵 小结

作者: 有苦向瓜诉说 | 来源:发表于2018-10-18 14:06 被阅读4次

各类熵的定义和计算

  1. 单个变量的信息熵的计算公式如下
    H(X) = - \sum {p({x_i})} \log (p({x_i}))~~~~(i = 1,2, \ldots ,n)

  2. 两个变量的联合熵计算公式
    H(X,Y) = - \sum_{x \in X,y \in Y} {p(x,y)} \ln (p(x,y))

  3. 条件熵是条件分布上关于起条件作用的那个随机变量取平均之后的期望值,定义为
    \begin{array}{l} H(Y|X) &= \sum_{x \in X} {p(x)H(Y|X = x)} \\ &= - \sum_{x \in X} {p(x)} \sum_{y \in Y} {p(y|x)\log p(y|x)} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \end{array}

  4. 联合熵与条件熵的关系:一对随机变量的熵等于其中一个随机变量的熵加上另一个随机变量的条件熵,即:H(X,Y) = H(X) + H(Y|X)(链式法则)。证明过程为:
    \begin{array}{l} H(X,Y) &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x,y)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)p(y|x)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= - \sum_{x \in X} {p(x)\log p(x)} - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= H(X) + H(Y|X) \end{array}

  5. 相对熵:两个随机分布之间距离的度量。
    D\left( {p||q} \right) = \sum_x {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} = {E_{p\left( x \right)}}\log \frac{{p\left( x \right)}}{{q\left( x \right)}}

  6. 互信息:互信息I(x,y)为联合分布P(x,y)和乘积分布p(x)p(y)之间的相对熵。
    \begin{array}{l} I(X;Y) &= \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} } \\ &= D(p(x,y)||(p(x)p(y)))\\ &= {E_{p(x,y)}}\log \frac{{p(X,Y)}}{{p(X)p(Y)}} \end{array}
    有表达式可知互信息具有对称性,非负性。

  7. 互信息与熵的关系:互信息是在给定另一个随机变量Y知识的条件下,X不确定度的缩减量。
    \begin{array}{l} I(X;Y) &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} \\ &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x|y)}}{{p(x)}}} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } + \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } \\ & = - \sum_{x \in X} {p(x)\log p(x)} - ( - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } )\\ &= H(X) - H(X|Y) \end{array}
    且根据互信息的对称性和联合熵与条件熵的关系H(X,Y) = H(X) + H(Y|X)可得
    \begin{array}{l} I(X;Y) = H(X) - H(X|Y)\\ I(X;Y) = H(Y) - H(Y|X)\\ I(X;Y) = H(X) + H(Y) - H(X,Y)\\ I(X;Y) = I(Y;X) \end{array}

参考

  1. https://www.zybuluo.com/frank-shaw/note/108124
  2. https://www.zhihu.com/question/22178202
  3. 【直观详解】信息熵、交叉熵和相对熵
  4. https://blog.csdn.net/haolexiao/article/details/70142571

相关文章

  • 信息熵 小结

    各类熵的定义和计算 单个变量的信息熵的计算公式如下 两个变量的联合熵计算公式 条件熵是条件分布上关于起条件作用的那...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 信息熵与最大熵模型

    信息熵是什么?机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)信息熵信息论中...

  • 机器学习之决策树

    信息熵: 信息熵描述信息源的不确定程度,信息熵越大、越不确定. 信息熵公式: 例子: 假设中国乒乓球队和巴西乒乓球...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 联合信息熵和条件信息熵

    下面这几个熵都是描述联合分布中的两个变量相互影响的关系。 联合信息熵 联合信息熵的定义如下: 条件信息熵 条件信息...

网友评论

    本文标题:信息熵 小结

    本文链接:https://www.haomeiwen.com/subject/pbgjzftx.html