信息熵
如今我们都生活在信息化的社会中,但信息究竟是什么呢?根据百度百科,信息是泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。哇,这个熟悉的概念在定义上有些抽象呢。那么有没有度量这个概念上有些抽象事物的量呢,香农大大在1948年提出了“信息熵”的概念,这个熵是取自于热力学中的概念,故而带着一个火字旁。
我们都知道,一个事件或一个系统,都具有一定的不确定度。不同的事件(或者说随机变量)会有着不同的不确定度。例如:中国足球队对上法国足球队,因为法国足球队赢得比赛的概率很高,几乎不需要引入太多信息,因此对应的信息熵就很低。
现在正式引入香农定义的信息熵:
如果 X 是一个离散型随机变量,取值空间为,其概率分布为
那么,X的(信息)熵定义为式(1)
(1)
其中,约定0log0=0,这是为了处理出现p(x)=0时的情况。由于在公式(1)中对数以2为底,因此信息熵的单位为二进制比特,后面的公式中会将 简写为
熵又称为自信息(self-imformation), 可以视为描述一个随机变量的不确定性的数量。例如前面的国足面对法国队,因为不确定度很小,所以对应的熵也很小。而如果是法国队对上的德国队,这样正确估计比赛结果的可能会变小,这样一个不确定的随机变量需要更大的信息量如赛前两队的状态与比赛时的天气情况来判断赛果,因此信息熵也变大了。
在只掌握关于未知分布的部分知识的情况下(我们在面对客观世界时往往只能掌握真相的一部分),符合已知信息的概率分布可能有多个,其中使熵值最大的概率分布最真实地反应了事件的分布情况,因为熵定义了随机变量的不确定性。当熵最大时(还记得上面的例子吗?)随机变量是最不确定的,最难准确预测其行为。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机知识的推断。以上就是最大熵的概念
在nlp中也经常运用最大熵的概念,通常的做法是,根据已知样本设计特征函数,假设存在k个特征函数,它们都在建模过程中对输出有影响,那么所建立的模型应该满足所有这些特征的限制,即所建立的模型
应该属于这
个特征函数约束下所产生的所有模型的集合
,在这个集合中选出使熵
值最大的模型用来推断某种语言现象存在的可能性,或者作为进行某种处理操作的可靠性依据,即:
联合熵和条件熵
如果是一对离散型随机变量
,
的联合熵
定义为
(2)
联合熵描述一对随机变量平均所需的信息量
给定随机变量的情况下,随机变量
的条件熵由式(3)定义
网友评论