《100本互联网人必读》系列:《信息简史》3-2:香农的信息论(下)
文/杜豆豆
倾一生之力,读经典好书,写有厚度的文字,过有深度的人生。大家好,我是杜豆豆。欢迎收听我解读的《100本互联网人必读》系列。
![](https://img.haomeiwen.com/i7631496/c2ab995feb259947.png)
(接香农的信息论(上),上回讲到“生物学被引入了熵计算,并带来了人们对生命编码的思考。”)
8
格雷克说,关于生物体的完整描述都已写在了卵里。
生物体遗传所依托的载体,很可能就是一些基本粒子。
1910年,丹麦数学家威廉 • 约翰森提出了基因的概念。他认为,是基因在控制生物体的遗传,不单是身体的属性,还有更抽象的本质。
那这个本质是什么呢?
研究豆子的孟德尔做了大量的实验,发现了遗传因子。但是,这么微小的东西,是怎么控制生物体的生长发育的呢?他想到了摩尔斯电码中的符号和停顿。用两个符号,就可以实现有序的编码,生成人类所有的语言。那基因是不是也有编码呢?
按照薛定谔的思路,基因不但有编码,还有指令、信号、存储、转换等等,于是信息论融入了生物学,兴起了分子生物学这样的新学科。
一位放射学先驱亨利 • 克斯特,用信息论估算出了一个氨基酸和一个蛋白质分子的信息量。他的一位同事提出了为染色体编指令的设想。
一时间,熵、噪声、信息传输等等概念,都被运用到了细胞结构、生态系统这样的领域。基因组也被设想了出来。
进一步的研究,发现基因可能不在蛋白质这里,而在另一种物质上,这种物质,我们今天很熟悉,叫做DNA。
DNA的基本单位是核苷酸,每个核苷酸有1个碱基,一共有4种。这四种核苷酸就是遗传编码的字母,以双螺旋结构形成碱基序列,代表着生命的编码。DNA分子就这样折折叠叠,形成染色体。要用遗传信息时,就会复制到DNA,然后翻译成蛋白质。
9
那基因就是DNA吗?还是说基因是由DNA组成的?或者基因是以DNA为载体的?
目前被公认的回答是,基因是DNA核苷酸的一段线性排列,决定了生物的某些性状。
在基因的研究中,有位年轻的动物学家——理查德 • 道金斯——写了本有名的科普读物《自私的基因》,引起了大众的注意。他的观点是,我们人类不过是台生存机器,是用来保全基因这种自私的分子的。
可是,这本书没有解答生物体的利他行为。比如,动物会牺牲个体保护种族,人类英雄会牺牲自己成就别人。如果从自私的基因的角度,归结到种族繁衍。那么,基因又是如何去意识到这些的呢?是不是应该有信息量的积累,才可能形成这样的意识呢?
换句话说就是,有一些大分子,是承载了信息的大分子,它从人类做出自然选择就开始积累,不断复制,形成了一定的智能,变成了主动而有意识的能力,并演化出相应的细胞结构和身体机能。
这样说来,基因也就不再是什么DNA上的片段,而是信息,是由比特构成的。
10
生命本质上就是负熵,是信息。它是不同于达尔文观点的另一种自然选择——基因做出的主动选择,和由什么物质构成没有太大关系,它是信息的传递。
这种说法,让我们感觉恍惚摸到了灵魂,触到了思想。
文艺青年们常说,灵魂是不死的,思想是不朽的。其实从信息论来看,这个说法不无道理。思想可以脱离肉体而存在,因为它是可以传播和进化下去的。
如果说,生物体的最基本单位是基因的话,那么,这种抽象的思想,它的信息单位该是什么呢?
理查德 • 道金斯给了一个命名,叫做“模因”。他说:“模因通过一个广义上可称为模仿的过程,在一个个大脑间跳转,从而在模因池里传播开来。” 模因间会竞争、争夺资源——也就是会尽可能争取大脑的注意,并通过在大脑间的不断复制,得以传播。模因的形式多样,它可能是:
一种思想。比如对上帝的信仰。
一段旋律。比如经典的《命运交响曲》的前奏,或者一时流行的“我是你的小呀小苹果”。
一个流行语。比如“适者生存”。
一幅图像。比如《蒙娜丽莎》。
它们都可以脱离物质而存在,既不是粒子,也不是基因,而是植入我们大脑并且可以复制和传给下一个人的信息。这种信息抽象、无形、不可度量,而且很容易蔓延开来,具有传染性和感染力,如同病毒一样强大,无孔不入。
连锁信、羊群行为、银行挤兑、信息瀑布、金融泡沫、减肥食谱等等,一阵阵风潮的快速兴起又消退,都在向我们展示着它们真实的存在。
这让我们不得不思索,到底是我们在掌控模因,还是模因在掌控我们呢?我们真的可以掌控自己的心智吗?这个问题,至今没有定论。
11
爱因斯坦说,原子有随机性。香农说,信息有随机性。
随机性到底指什么?
有位经济学家用对立面,给了随机性一个定义:任何事先知道的、由某种特定原因决定的或根据某种计划实施的,都不是随机的。这又扯出了另一个概念:或然性。庞加莱有句名言说:“或然性不过是我们的无知的一种量度。”因为没掌握其中规律,只能稀里糊涂。但随机性不同,它可能是事物的本质。
比如,3.1415926......,你可以认为它是随机的,但它也是特殊的,是圆周率对吧?
什么样的数才算是真正的随机数?
这个问题,咱们计算机界的先驱,冯 • 诺依曼,曾说过这么一句话:“ 任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为......不存在一个随机数这样的东西——有的只是生成随机数的方法,而一种严格的算术方法显然不属于其中之一。”
对数来说,不可避免会存在一些规律性。那么,算法下出来的,也只能是伪随机数。
抛硬币是随机的吗?但按牛顿运动定律和概率论,它又是有规律,可以算出来的。
随机性,或许可以理解为一种秩序的缺失。
给你个数,比如说01010101,10000100。这是我随机写的,但放在特定的场合,它可能是一段密码。如果给香农看,他或许会说,前一个比后一个的信息量大,为什么?因为前一个有冗余,有重复规律,是可预测的。
这样说来,随机程度如何与含有多少信息其实是一回事。信息的本质就是随机性。
凡是可计算的,能被一个可定义的计算机程序生成的,都不是随机的。可计算性是随机性的一种度量。
熵是信息的无序程度,是可以用算法来表示的。香农说信息是熵。科学家们每天在做的,就是从这些无序的信息里找出秩序,形成理论,解释已知,预测未知。
12
那该如何描述信息的度量呢?
一位苏联数学家给出了三种途径:基于组合、基于概率、基于算法。前两种其实香农已经提出过,他的创意在第三种。比如,莎士比亚全集的信息量有多大?你用组合、概率都不好使。用算法,你就可以根据对象的复杂度,也就是生成一个对象所需要的最短的计算机程序的长度,来进行度量。
研究到这里,你就会发现,信息、随机性和复杂度这三者本质上是等价的。
那到底没有意义的数字存在吗?
数学家们就是这么执著。他们发现,有意思的数的列表终究会在某处终结,一定存在某个没有意义的数。但这会带来悖论:因为它可以 被称为“最小的没意思的数”。蔡廷选用计算机程序语言来研究算法信息论时,就发现了类似的悖论。
蔡廷一直没有放弃对绝对确定性的研究,尽管他面对的现实,始终都是不完全性、不可计算性甚至算法随机性。在量子物理学以及混沌理论中,科学家们也发现了宇宙的不确定性,以致于爱因斯坦不无担忧地说这是“上帝在掷骰子”。
如果复杂的信息能被最大化压缩,就会让信息的传递更为经济有效。这也是香农研究数据压缩理论的直接目的。
依托编码算法,很多设备可以实现对数的压缩。比如书中提到了香农-法诺编码,哈夫曼编码算法。
一个俄罗斯学生,在香农信息论的影响下,开始研究“信息装载”、“归纳推理”的问题。其中的核心就是:“计算机也能从经验中学习吗?”
结论是肯定的。计算机使用归纳推理,就可以从无规律的信息流中识别出规律。某种意义上看,科学规律就像一种数据压缩,理论物理学家就是编码算法。
一条讯息就是一种算法,接收方则是一部机器,所以,在信息传递中,无需考虑任何意义,不管你是美妙的音乐还是枯燥的数字,只要考虑某个算法含有多少信息就好了。
最终,不同科学家的研究得出了同一个答案:最短程序的长度跟复杂性有关。复杂性越高,随机性也就越高,信息量越大,完全随机序列是无法压缩的。这可以称得上是香农信息论的发展巅峰了。
但是,它并不完美。因为,信息量和信息价值还是两码事,比如在艺术领域,我们就能举出明显的相背离例子。
由此,另一个概念出现了:逻辑深度。完全随机、不可预测,或者单纯重复、规律性特强,这两种极端状态都属于没有逻辑深度。相应的,具有一定难度、需要耗费计算力的,才算有逻辑深度。
13
理查德• 费曼曾说:“没有人真正理解量子力学。”
量子力学的历史并不长,但是争论却喧嚣的很,以致于量子理论学家克里斯托弗 • 福克斯干脆跑去研究物理学原理了。而且,他认为,这样的原理就在量子信息论里。量子力学是围绕信息展开的,因为信息就是量子化的比特。
你可能听说过,费曼的老师,著名的核裂变先驱惠勒有个名言,“黑洞无毛”。意思是,黑洞外面能够观察到的只有黑洞的质量,其他的信息,即便是个“毛”,都观察不到。惠勒还提出了另外一个脍炙人口的流行语:“万物源自比特。”在他眼中,信息第一性,物质第二性。世界的本原是信息。
黑洞来自爱因斯坦的广义相对论。斯蒂芬• 霍金是黑洞研究方面的一个重要人物。霍金提出了霍金辐射,说黑洞在向外辐射粒子,黑洞会慢慢蒸发,最后消失。很多人反对霍金,因为信息是不灭的,如果消失了,量子力学就不存在了。
甚至1997年时加州理工学院的约翰• 普雷斯基尔教授还和霍金打赌,赌注是一套百科全书,说信息一定会以某种方式逃出黑洞。结果,霍金到2004年的时候,承认他输了。他新的研究结论是,黑洞并不全黑,信息是守恒的、始终存在。
查尔斯 • 本内特则是沿着另一条不同的路线涉足量子信息论的。他通过对“计算的热力学”研究,认为计算是个心理过程,是会消耗热量,同时也产生了熵,发生了熵增加。冯 • 诺依曼也做过估算,证明信息传输会耗热量。
但物理学家罗尔弗 • 兰道尔出了一个著名的论文《信息是物理的》,推翻了这一结论。兰道尔认为,大多数的逻辑操作并不增加熵,只要信息变化过程可逆,熵就没有改变,只有不可逆的操作才会增加熵,比如信息的擦除。信息总是与物理载体联系的,必须遵循物理定律。
后来,本内特制造了一个“玛莎阿姨”的设备,用来演示信息处理任务如何通过量子系统来完成。在这之后不久,量子纠错、量子隐形传态以及量子纠缠、量子计算机等设想随之出现。
量子纠缠,说的是两个粒子处在纠缠态,一个粒子表现出一种状态,另一个粒子会马上表现出同样一种状态,这个状态是不可预测 的。如果用传统信道,信息传递的过程中可能会被截获。如果用量子纠缠态,就可以解决这个问题。
而在量子计算机中,量子比特是相互纠缠的,多个量子比特工作,威力会呈指数增加,计算力就会变得超强,同时,安全性也会超高。
14
量子计算机的探索现在还在进行。可惜的是,香农晚年深受病魔困扰,2001年已经去世了。
做为信息时代开创在者之一,香农虽然没有能亲眼见证21世纪的蓬勃发展的信息科学,但他的英名却永远和信息一起,成为不朽的历史。
万物源自比特。
信息时代的洪流喷涌而出,我们人类该如何应对这一挑战呢?
下回,我们接着讲第三部分:洪流。
今天的解读就到这里。倾一生之力,读经典好书,写有厚度的文字,过有深度的人生。我是杜豆豆,感谢你的收听。明天我们继续解读《100本互联网人必读》系列的第一本书《信息简史》,欢迎持续关注。
(未完待续)
创作不易,非授权不得转载,转载请注明出处。如果您觉的文章有用,别忘了在文末点赞哦。
读更多好书,请访问我的文集连载:《一生必读的万卷好书》
我是最高级别的“简书会员合伙人”。欢迎您加入“万卷好书读书会”:会员已超200人,需群主拉入。有兴趣的简友请加微信dudoudou189联系我。读书会座右铭:在浮躁的时代,安心读书写作,养育心灵。
网友评论