1.信息熵
1948年,香农在他著名的论文“通信的数学原理”中提高了“信息熵”的概念,解决了信息度量问题,同时量化了信息的作用。
如何理解信息熵
当等概率情况下,一个基本事件,其信息量就为1,单位为bit,会产生2种结果。当一个事件以基本事件为参照物,那么可能出现的结果为指数型增长,即为种,则信息量为
当非等概率情况下如何求解不同情况的信息量呢?对于一个种等概率结果,一种结果的概率是,那么概率的导数就是结果数量,所以,信息量表达为
我们需要将不同情况的概率与其信息量相乘求和(各种结果信息量的平均值),可得一个事件的信息熵
如果是连续型随机变量的概率密度分布函数,则信息熵的定义:
信息熵与不确定的相关性
情况一:假定让一个观众猜测16只球队中,那个球队是冠军,通过折半查找,需要次,即=4。
情况二:假定球队包含了像西班牙、巴西、德国这样夺冠可能性大的球队,这样导致8只球队的概率并不一样。如果我们将夺冠可能性大的队伍分为一组,其余分为另外一组,这样我们不需要4次就可以猜出冠军队伍,即信息量<4
综上,,因为情况二加入了先验信息,确定性更高,熵更小。因此信息熵可以作为随机变量确定性的度量。
同时,我们可以通过公式证明不可能大于4。因为球队如果夺冠的可能性太大或者太低,确定性都不如输赢参半的高。
2.相对熵
相对熵又称KL散度,是两个随机分布间距离的度量。
根据展开式,相对熵表示样本真实分布P的情况下,使用Q分布进行编码相对于使用真实分布P进行编码的差量
3.交叉熵
根据相对熵公式得交叉熵:
当交叉熵作为损失函数时,看作常数,所以交叉熵与KL距离在行为上是等价的,都反映了分布P,Q的相似程度。
4.运用
需要指出的是相对熵是不对称的,即
为了让它对称,詹森和香农提出了一种计算相对熵的计算方法,将上面的不等式两边相加取平均。
相对熵的运用主要集中在信息处理中,比如比较两篇文章词频分布的相对熵来评估,文章是否存在抄袭。另外,利用相对熵还可以得到信息检索中最重要的概念:TF-IDF,详见数学之美P108
网友评论