一条信息的不确定性由它出现概率的负对数函数来表示。一方面负对数函数在数值上概率输入的单调递减函数,比如输入为1时值为0,输入为0时值为无穷大。另一方面,独立分布的概率的不确定性应等于各自的不确定性之和,f(x1, x2) = f(x1) + f(x2),负对数函数满足这条性质。
上式衡量了非真实分布和真实分布的交叉熵H(p,q)。
根据Gibbs' inequality(https://en.wikipedia.org/wiki/Gibbs%27_inequality),H(p, q)不小于H(p),当且仅当q等于p时,两者相等。
相对熵为H(p, q) - H(p),又叫做KL散度,表示了p和q两个概率分布的差异性。p和q差异越大,KL散度越大,p和q越接近,KL散度越小。
我们在机器学习算法当中使用交叉熵作为loss,最小化交叉熵作为目标。也就说明了我们的优化目标,H(p,
q)最小化,是使得我们得到的非真实分布越来越接近真实分布。
以上参考
https://www.zhihu.com/question/41252833
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin
网友评论