信息熵、交叉熵与相对熵

作者: Goet | 来源:发表于2017-11-15 11:53 被阅读0次

熵的定义本质上是香浓信息量log(1/p)的期望。

信息熵

编码方案完美时，最短平均编码的长度

交叉熵

编码方案不一定完美时（由于对概率分布的估计不一定正确），平均编码的长度

H(p)是p的信息熵，后者是相对熵

相对熵

编码方案不一定完美时，平均编码长度相对于最小值的增加值。又被称作KL散度（Kullback-Leibler divergence）。

离散：

连续：

可以发现交叉熵=信息熵+相对熵。对于一个给定问题，用Machine Learning中的classify举例，对于训练集，信息熵是固定的，相对熵代表了分类结果与真实结果之间的差距，所以减小相对熵即是减小交叉熵，这就是很多常见模型的loss function。在Machine Learning中，交叉熵等效于相对熵。