美文网首页
《Deep Learning》“花书”——信息论

《Deep Learning》“花书”——信息论

作者: shijiatongxue | 来源:发表于2019-03-15 21:46 被阅读0次
  • 自信息
  • 香农熵
  • KL散度

信息论的基本思想:一个不太可能发生的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。

1 自信息

定义事件x=x的自信息为:
I(x)=-logP(x)

2 香农熵

一个分布的香农熵时指遵循这个分布的事件所产生的期望的信息总量:
H(x)=\sum P(x)I(x)=\sum P(x)log\frac{1}{P(x)}

3 KL散度

对同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度来衡量两个分布的差异。KL散度表示使用理论分布拟合真实分布时产生的信息损耗。
D_{KL}(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}

3.1 KL散度与交叉熵的关系

H(P,Q)=H(P)+D_{KL}(P||Q)=-\sum P(x) log Q(x)
针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。

3.2 计算实例

假如一个字符发射器,随机发出0和1两种字符,真实发出概率分布为A,但实际不知A的具体分布。通过观察,得到概率分布B和C,各个分布的情况如下:

分布/事件 0 1
A \frac{1}{2} \frac{1}{2}
B \frac{1}{4} \frac{3}{4}
C \frac{1}{8} \frac{7}{8}

可以计算得到如下:
D_{KL}(A||B)=\frac{1}{2}log\frac{\frac{1}{2}}{\frac{1}{4}}+\frac{1}{2}log\frac{\frac{1}{2}}{\frac{3}{4}}=\frac{1}{2}log\frac{3}{4} D_{KL}(A||C)=\frac{1}{2}log\frac{\frac{1}{2}}{\frac{1}{8}}+\frac{1}{2}log\frac{\frac{1}{2}}{\frac{7}{8}}=\frac{1}{2}log\frac{16}{7}
由上式可以知道,用概率分布B进行编码比C进行编码,平均每个符号增加的比特数目少。从分布上也可以看出,实际上B要比C更接近真实分布。

3.3 吉布斯不等式(高阶)

相对熵恒大于等于0,当且仅当两分布相同时,相对熵等于0。


参考文献:
深度学习
相对熵

相关文章

网友评论

      本文标题:《Deep Learning》“花书”——信息论

      本文链接:https://www.haomeiwen.com/subject/aqvrmqtx.html