美文网首页
第六章 信息的度量和作用

第六章 信息的度量和作用

作者: Chasingcar_501 | 来源:发表于2019-01-11 16:15 被阅读0次

      我们常说信息有用,它的作用如何客观、定量体现呢?一本《史记》有多少信息量?1984年,香农在他著名的论文“通信的数学原理”中提出了“信息熵”的概念,才解决了信息的度量问题,并且量化出信息的作用。

    1.信息熵

      一条信息的信息量与其不确定性有直接关系,比如对于不确定或一无所知的事情,就需要大量信息;相反如果了解较多则不需要太多信息量就能搞清楚。从这个角度看,信息量就等于不确定性的多少。

      香农使用比特(Bit)来度量信息量。一个比特是一位二进制数,在计算机中一个字节是8比特。假如从32个球队中猜测获得冠军的球队,使用二分法猜五次即可,即谁是冠军这条信息的信息量是5比特(如果是64个球队就是6比特,信息量的比特数和所有可能情况的对数有关)。再分析,可能并不需要五次就能猜出,因为强队的夺冠概率大,可以根据夺冠概率把强队进行编号分组,找到冠军球队。所以当每队夺冠概率不等时,“谁是冠军”的信息量可能不到5比特。香农指出,它的准确信息量应该是: image.png

    其中p1,p2...是32支球队夺冠的概率。香农称之为信息熵,用H表示,单位是比特。当32支球队夺冠概率相等时,对应的信息熵等于5比特。

      对于任意一个随机变量X(比如冠军球队),它的熵定义如下: image.png

    变量的不确定性越大,熵越大,要把它搞清楚需要的信息量就越多。
      一本50万字的中文书有多少信息量?汉字大约有7000字。假如每个字概率相等,大约需要13比特(即13位二进制)表示一个汉字。根据汉字的使用频率,10%的汉字占用日常文本的95%以上。再考虑上下文相关性,每个字的信息熵大约只有5比特。所以一本50万字的中文书,信息量大约是250万比特。采用较好的压缩算法,整本书可以存成一个320KB的文件。如果直接用国际编码存储,大约需要1MB,这之间的差距叫做“冗余度”。如果一本书重复内容越多,它的信息量就小,冗余度大。不同语言冗余度相差很大,汉语的冗余度是相对较小的。

    2.信息的作用

      一个事物内部会有随机性,也就是不确定性,假定为U,从外部消除该随机性的唯一方法是引入信息I,需要引入的信息量取决于这个不确定性的大小,即I > U才行。当I < U时,这些信息可以消除一部分不确定性。
      网页搜索的本质就是从大量网页中找到和用户输入的搜索词最相关的几个网页。自然语言模型中的一元模型就是通过某个词本身的概率分布,来消除不确定性;而二元及更高阶的语言模型则还使用了上下文的信息,能准确有一个句子中当前词汇。

      相关性消除不确定性使用了“条件熵”。 image.png
    H(X) >= H(X|Y),也就是说多了Y的信息后,关于X的不确定性下降了,也就证明了二元模型的不确定性小于一元模型。 image.png

    还可以证明H(X|Y,Z) >= H(X|Y,Z)。也就是说三元模型应该比二元模型好。
    如果我们获取的信息与要研究的毫无关系,等号就成立。

    3.互信息
      假设有两个随机事件X和Y,它们的互信息定义如下: image.png   互信息其实就是随机事件X的不确定性与条件熵之间的差异: image.png

      所谓两个事件相关性的量化度量,就是在了解了其中一个Y的前提下,对消除另外一个X不确定性所提供的信息量。当X和Y完全相关时,它的取值是H(X),同时H(X) = H(Y)完全不相关时,取值是0。
      机器翻译中最难得问题是词义的二义性,比如Bush既可以是布什也可以是灌木,如何翻译呢?首先从大量文本中找出和总统布什一起出现的互信息量最大的一些词如美国、国会等,再用同样方法找出灌木一起互信息量大的词,比如土壤、植物等

    相关文章

      网友评论

          本文标题:第六章 信息的度量和作用

          本文链接:https://www.haomeiwen.com/subject/rvgtdqtx.html