1 自信息

定义事件x=x的自信息为：
$I(x)=-logP(x)$

2 香农熵

一个分布的香农熵时指遵循这个分布的事件所产生的期望的信息总量：
$H(x)=\sum P(x)I(x)=\sum P(x)log\frac{1}{P(x)}$

3 KL散度

对同一个随机变量x有两个单独的概率分布P(x)和Q(x)，可以使用KL散度来衡量两个分布的差异。KL散度表示使用理论分布拟合真实分布时产生的信息损耗。
$D_{KL}(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}$

3.1 KL散度与交叉熵的关系

$H(P,Q)=H(P)+D_{KL}(P||Q)=-\sum P(x) log Q(x)$
针对Q最小化交叉熵等价于最小化KL散度，因为Q并不参与被省略的那一项。

3.2 计算实例

假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知A的具体分布。通过观察，得到概率分布B和C，各个分布的情况如下：

分布/事件	0	1
A	$\frac{1}{2}$	$\frac{1}{2}$
B	$\frac{1}{4}$	$\frac{3}{4}$
C	$\frac{1}{8}$	$\frac{7}{8}$

可以计算得到如下：
$D_{KL}(A||B)=\frac{1}{2}log\frac{\frac{1}{2}}{\frac{1}{4}}+\frac{1}{2}log\frac{\frac{1}{2}}{\frac{3}{4}}=\frac{1}{2}log\frac{3}{4}$ $D_{KL}(A||C)=\frac{1}{2}log\frac{\frac{1}{2}}{\frac{1}{8}}+\frac{1}{2}log\frac{\frac{1}{2}}{\frac{7}{8}}=\frac{1}{2}log\frac{16}{7}$
由上式可以知道，用概率分布B进行编码比C进行编码，平均每个符号增加的比特数目少。从分布上也可以看出，实际上B要比C更接近真实分布。