我们常说信息有用,它的作用如何客观、定量体现呢?一本《史记》有多少信息量?1984年,香农在他著名的论文“通信的数学原理”中提出了“信息熵”的概念,才解决了信息的度量问题,并且量化出信息的作用。
1.信息熵
一条信息的信息量与其不确定性有直接关系,比如对于不确定或一无所知的事情,就需要大量信息;相反如果了解较多则不需要太多信息量就能搞清楚。从这个角度看,信息量就等于不确定性的多少。
其中p1,p2...是32支球队夺冠的概率。香农称之为信息熵,用H表示,单位是比特。当32支球队夺冠概率相等时,对应的信息熵等于5比特。
变量的不确定性越大,熵越大,要把它搞清楚需要的信息量就越多。
一本50万字的中文书有多少信息量?汉字大约有7000字。假如每个字概率相等,大约需要13比特(即13位二进制)表示一个汉字。根据汉字的使用频率,10%的汉字占用日常文本的95%以上。再考虑上下文相关性,每个字的信息熵大约只有5比特。所以一本50万字的中文书,信息量大约是250万比特。采用较好的压缩算法,整本书可以存成一个320KB的文件。如果直接用国际编码存储,大约需要1MB,这之间的差距叫做“冗余度”。如果一本书重复内容越多,它的信息量就小,冗余度大。不同语言冗余度相差很大,汉语的冗余度是相对较小的。
2.信息的作用
一个事物内部会有随机性,也就是不确定性,假定为U,从外部消除该随机性的唯一方法是引入信息I,需要引入的信息量取决于这个不确定性的大小,即I > U才行。当I < U时,这些信息可以消除一部分不确定性。
网页搜索的本质就是从大量网页中找到和用户输入的搜索词最相关的几个网页。自然语言模型中的一元模型就是通过某个词本身的概率分布,来消除不确定性;而二元及更高阶的语言模型则还使用了上下文的信息,能准确有一个句子中当前词汇。
H(X) >= H(X|Y),也就是说多了Y的信息后,关于X的不确定性下降了,也就证明了二元模型的不确定性小于一元模型。 image.png
还可以证明H(X|Y,Z) >= H(X|Y,Z)。也就是说三元模型应该比二元模型好。
如果我们获取的信息与要研究的毫无关系,等号就成立。
3.互信息
假设有两个随机事件X和Y,它们的互信息定义如下: image.png 互信息其实就是随机事件X的不确定性与条件熵之间的差异: image.png 所谓两个事件相关性的量化度量,就是在了解了其中一个Y的前提下,对消除另外一个X不确定性所提供的信息量。当X和Y完全相关时,它的取值是H(X),同时H(X) = H(Y)完全不相关时,取值是0。
机器翻译中最难得问题是词义的二义性,比如Bush既可以是布什也可以是灌木,如何翻译呢?首先从大量文本中找出和总统布什一起出现的互信息量最大的一些词如美国、国会等,再用同样方法找出灌木一起互信息量大的词,比如土壤、植物等
网友评论