香农信息熵、交叉熵和相对熵

作者: an0nym0us | 来源:发表于2017-09-26 13:29 被阅读25次

一条信息的不确定性由它出现概率的负对数函数来表示。一方面负对数函数在数值上概率输入的单调递减函数，比如输入为1时值为0，输入为0时值为无穷大。另一方面，独立分布的概率的不确定性应等于各自的不确定性之和，f(x1, x2) = f(x1) + f(x2)，负对数函数满足这条性质。

香农信息熵衡量了多条信息源的平均不确定性，定义为总体信息的不确定性的期望值。

交叉熵是指当我们手上有信息的真实分布p(x)和非真实分布q(x)，我们以非真实分布来计算信息的不确定性，然后以真实分布来计算信息的香农信息熵，那么我们有H(p,q)= $\sum_{i}^{} p(i)*log\frac{1}{q(i)}$

上式衡量了非真实分布和真实分布的交叉熵H(p,q)。

根据Gibbs' inequality（https://en.wikipedia.org/wiki/Gibbs%27_inequality），H(p, q)不小于H(p)，当且仅当q等于p时，两者相等。

相对熵为H(p, q) - H(p)，又叫做KL散度，表示了p和q两个概率分布的差异性。p和q差异越大，KL散度越大，p和q越接近，KL散度越小。

我们在机器学习算法当中使用交叉熵作为loss，最小化交叉熵作为目标。也就说明了我们的优化目标，H(p,
q)最小化，是使得我们得到的非真实分布越来越接近真实分布。

网友评论

本文标题：香农信息熵、交叉熵和相对熵

本文链接：https://www.haomeiwen.com/subject/vitsextx.html

香农信息熵、交叉熵和相对熵