理查德佐尔格,德国人,共产主义间谍,上个世纪30-40年代在德国、日本等国长期为苏联获取有价值的情报。而其中最有价值的要数这两条:一次是告诉斯大林,希特勒将在1941年6月22日进攻苏联,斯大林没有将它当回事,这条信息也就没起到什么作用;而另一次就是关于日本军部“北进还是南下”的战略决策的信息。
当时的背景是这样的,纳粹德国已经兵临莫斯科,斯大林在欧洲的兵力所剩无几,而他们在西伯利亚的中苏边界的60万大军却不敢贸然动用,因为苏联人不知道日本是否会从背后下手。而当时日本到底是要北上打苏联还是南下和美国开战这一决策无人知晓,这时佐尔格提供的情报就起到了很大作用,这条情报只有五个字:“日本将南下”,鉴于此,苏联就可以放心地把中苏边境上的60万大军调回莫斯科。
那么问题来了,佐尔格提供的这条情报的信息量有多大呢?
如果我们没有学习信息论的话,可能会说这里面信息量很大,因为这条情报给苏联带来的很大帮助,甚至可以说是成功扭转了当时的战局。但是按照信息论对信息的衡量标准来看的话,这条信息的信息量大概不到1比特。
比特的定义是这样的:如果一个黑盒子中有A和B两种可能性,它们出现的概率相同,那么要搞清楚到底是A还是B,所需要的信息量就是1比特。如果我们知道A的概率比B大,那么解密它们所需要的信息就不到1比特。怎么理解呢?
充满不确定性的黑盒子就叫“信息源”,里面的不确定性叫“信息熵”,而“信息”就是用来消除不确定性的,所以搞清楚黑盒子里是怎么回事,需要的信息量就等于黑盒子里的“信息熵”。
当黑盒子里的可能性只有2种时,我们可以将信息熵的图像画成这样的抛物线,横轴是A发生的概率,纵轴就是熵,也就是确定事件发生所需要的信息量。从抛物线可以看出,当概率正好是50%时,消除信息熵需要的信息量最大,是1比特,这就类似抛一枚均匀的硬币,每一次正面和反面的概率都是1/2,我们很难每次都猜对。但如果硬币不是均匀的,比如正面轻,反面重,那么反面朝下的概率就大,那么确定那面朝下的信息量就小。所以,当有人告诉我们说一件事情发生的概率是50%时,其实那就相当于什么都没说,因为根本没有提供任何减少信息熵的信息量。
现在我们回头看佐尔格入提供的那条情报,为什么说它不到1比特呢?因为当时苏联对日本军队的战略多少有些判断,而佐尔格提供的情报只不过是证实了苏联的判断,也就是苏联掌握的关于日本北上和南下的概率不是一半一半,而消除信息熵所需的信息量就不到1比特。
假设北上与南下的概率分别为1/3和2/3,那么根据香农给出的计算信息量的公式(如下图)计算出用来消除不确定性的信息量就是0.9比特。如果更极端点概率分别是99%和1%,那么所需的信息量就会变成0.08比特。
可见佐尔格提供的信息虽然信息量不大,但是却带来了巨大的效果,由此可见,信息在生活中的价值有多大,有时很少的信息也可以带来很大的变化。
给我印象最深的例子就是关于19世纪塞麦尔韦斯发现产褥热导致大量妇女死亡的原因的案例。
在19世纪中叶,时任奥地利维也纳大学附属医学院的产科医师塞麦尔韦斯注意到,由医师负责的产科病房产褥热的发生率比助产士负责的病房高9倍,前者的病死率高达10%以上,经过调查,该感染是通过医生的手扩散的,是由于做过尸体解剖的医师未经洗手消毒,就去处理产科患者造成的。通过实行严格的漂白粉液洗手措施后,产褥热的传播得到了明显的控制,病死率减少到1.0%以下。他应用系统的流行病学调查方法,控制了该医院产褥热的流行爆发。
处在信息时代的我们,应该学会如何获取信息,如何从海量信息中找到对我们有用的信息,这也是我学习信息论的原因,虽然我不懂其中的数学原理,但是只要能够将其利用到工作和生活中,我相信就可以发生一些改变。
网友评论