信息量

$I\left( x_i \right) = - \log p\left( x_i \right)$

Intuition：概率越小的事件发生，信息量越大

信息熵

$H\left[ x \right] = - \sum {p\left( {{x_i}} \right)\log p\left( {{x_i}} \right)}$

描述的是一个随机变量分布的平均信息量，信息熵刻画了一个概率分布的不确定性程度，与随机变量的取值无关

K-L divergence 与信息损失量

K-L散度

其中p为观察得到（采样得到）的概率分布(采样分布)，q为一个通用的分布（例如神经网络）去近似p。需要注意的是p也只是对真实分布的一个估计而已，数据越多对真实分布的估计就越准确。

K-L 散度（又叫相对熵）描述的就是用q去近似p时信息损失的多少,因此它经常作为优化的目标函数，找到原始分布的最优匹配

可以看到，K-L散度其实就是采样到数据的原始分布p与近似分布q之间的信息量差的期望

K-L散度
这里需要注意的是Dkl (p || q) != Dkl (q || p)，也就是说用p去近似q和用q去近似p，二者所损失的信息是不一样的。

匹配/学习/拟合就是，用一个通用的带有参数的模型去尽可能的取逼近采样数据所服从的分布(采样分布)，需要注意的是如果采样分布不能代表总体的分布（一方面样本采的不够多，另一方面可能传感器存在误差），那么匹配到的模型与真实的模型会存在较大的偏差。需要强调的是，机器学习算法需要做的就是让学习到的模型尽可能的去逼近采样得到的数据

交叉熵

K-L散度 = 交叉熵 - 信息熵，即DKL( p||q ) = H(p,q) − H(p)
$H\left( {p,q} \right) = \sum\limits_{i = 1}^N {p\left( {{x_i}} \right)\log \frac{1}{{q\left( {{x_i}} \right)}}}$

为什么在深度学习中经常使用交叉熵作为损失函数而不用相对熵（K-L散度），那是因为当数据集给定时，采样分布p(x)就已知了，因此H(p)就是一个常数，所以在求解优化问题的时候就可以舍去H(p)这一项。此时损失函数就变成了交叉熵的表达形式。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）