美文网首页万卷好书洞察钻榜读书
《信息简史》3-2:香农的信息论(下)

《信息简史》3-2:香农的信息论(下)

作者: 北京杜豆豆 | 来源:发表于2019-06-21 06:34 被阅读22次

《100本互联网人必读》系列:《信息简史》3-2:香农的信息论(下)

文/杜豆豆


倾一生之力,读经典好书,写有厚度的文字,过有深度的人生。大家好,我是杜豆豆。欢迎收听我解读的《100本互联网人必读》系列。

理查德 • 道金斯

(接香农的信息论(上),上回讲到“生物学被引入了熵计算,并带来了人们对生命编码的思考。”)

8

格雷克说,关于生物体的完整描述都已写在了卵里。

生物体遗传所依托的载体,很可能就是一些基本粒子。

1910年,丹麦数学家威廉 • 约翰森提出了基因的概念。他认为,是基因在控制生物体的遗传,不单是身体的属性,还有更抽象的本质。

那这个本质是什么呢?

研究豆子的孟德尔做了大量的实验,发现了遗传因子。但是,这么微小的东西,是怎么控制生物体的生长发育的呢?他想到了摩尔斯电码中的符号和停顿。用两个符号,就可以实现有序的编码,生成人类所有的语言。那基因是不是也有编码呢?

按照薛定谔的思路,基因不但有编码,还有指令、信号、存储、转换等等,于是信息论融入了生物学,兴起了分子生物学这样的新学科。

一位放射学先驱亨利 • 克斯特,用信息论估算出了一个氨基酸和一个蛋白质分子的信息量。他的一位同事提出了为染色体编指令的设想。

一时间,熵、噪声、信息传输等等概念,都被运用到了细胞结构、生态系统这样的领域。基因组也被设想了出来。

进一步的研究,发现基因可能不在蛋白质这里,而在另一种物质上,这种物质,我们今天很熟悉,叫做DNA

DNA的基本单位是核苷酸,每个核苷酸有1个碱基,一共有4种。这四种核苷酸就是遗传编码的字母,以双螺旋结构形成碱基序列,代表着生命的编码。DNA分子就这样折折叠叠,形成染色体。要用遗传信息时,就会复制到DNA,然后翻译成蛋白质。

9

那基因就是DNA吗?还是说基因是由DNA组成的?或者基因是以DNA为载体的?

目前被公认的回答是,基因是DNA核苷酸的一段线性排列,决定了生物的某些性状。

在基因的研究中,有位年轻的动物学家——理查德 • 道金斯——写了本有名的科普读物《自私的基因》,引起了大众的注意。他的观点是,我们人类不过是台生存机器,是用来保全基因这种自私的分子的。

可是,这本书没有解答生物体的利他行为。比如,动物会牺牲个体保护种族,人类英雄会牺牲自己成就别人。如果从自私的基因的角度,归结到种族繁衍。那么,基因又是如何去意识到这些的呢?是不是应该有信息量的积累,才可能形成这样的意识呢?

换句话说就是,有一些大分子,是承载了信息的大分子,它从人类做出自然选择就开始积累,不断复制,形成了一定的智能,变成了主动而有意识的能力,并演化出相应的细胞结构和身体机能。

这样说来,基因也就不再是什么DNA上的片段,而是信息,是由比特构成的。

10

生命本质上就是负熵,是信息。它是不同于达尔文观点的另一种自然选择——基因做出的主动选择,和由什么物质构成没有太大关系,它是信息的传递。

这种说法,让我们感觉恍惚摸到了灵魂,触到了思想。

文艺青年们常说,灵魂是不死的,思想是不朽的。其实从信息论来看,这个说法不无道理。思想可以脱离肉体而存在,因为它是可以传播和进化下去的。

如果说,生物体的最基本单位是基因的话,那么,这种抽象的思想,它的信息单位该是什么呢?

理查德 • 道金斯给了一个命名,叫做“模因”。他说:“模因通过一个广义上可称为模仿的过程,在一个个大脑间跳转,从而在模因池里传播开来。” 模因间会竞争、争夺资源——也就是会尽可能争取大脑的注意,并通过在大脑间的不断复制,得以传播。模因的形式多样,它可能是:

一种思想。比如对上帝的信仰。

一段旋律。比如经典的《命运交响曲》的前奏,或者一时流行的“我是你的小呀小苹果”。

一个流行语。比如“适者生存”。

一幅图像。比如《蒙娜丽莎》。

它们都可以脱离物质而存在,既不是粒子,也不是基因,而是植入我们大脑并且可以复制和传给下一个人的信息。这种信息抽象、无形、不可度量,而且很容易蔓延开来,具有传染性和感染力,如同病毒一样强大,无孔不入。

连锁信、羊群行为、银行挤兑、信息瀑布、金融泡沫、减肥食谱等等,一阵阵风潮的快速兴起又消退,都在向我们展示着它们真实的存在。

这让我们不得不思索,到底是我们在掌控模因,还是模因在掌控我们呢?我们真的可以掌控自己的心智吗?这个问题,至今没有定论。

11

爱因斯坦说,原子有随机性。香农说,信息有随机性。

随机性到底指什么?

有位经济学家用对立面,给了随机性一个定义:任何事先知道的、由某种特定原因决定的或根据某种计划实施的,都不是随机的。这又扯出了另一个概念:或然性。庞加莱有句名言说:“或然性不过是我们的无知的一种量度。”因为没掌握其中规律,只能稀里糊涂。但随机性不同,它可能是事物的本质。

比如,3.1415926......,你可以认为它是随机的,但它也是特殊的,是圆周率对吧?

什么样的数才算是真正的随机数?

这个问题,咱们计算机界的先驱,冯 • 诺依曼,曾说过这么一句话:“ 任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为......不存在一个随机数这样的东西——有的只是生成随机数的方法,而一种严格的算术方法显然不属于其中之一。”

对数来说,不可避免会存在一些规律性。那么,算法下出来的,也只能是伪随机数。

抛硬币是随机的吗?但按牛顿运动定律和概率论,它又是有规律,可以算出来的。

随机性,或许可以理解为一种秩序的缺失。

给你个数,比如说01010101,10000100。这是我随机写的,但放在特定的场合,它可能是一段密码。如果给香农看,他或许会说,前一个比后一个的信息量大,为什么?因为前一个有冗余,有重复规律,是可预测的。

这样说来,随机程度如何与含有多少信息其实是一回事。信息的本质就是随机性。

凡是可计算的,能被一个可定义的计算机程序生成的,都不是随机的。可计算性是随机性的一种度量。

熵是信息的无序程度,是可以用算法来表示的。香农说信息是熵。科学家们每天在做的,就是从这些无序的信息里找出秩序,形成理论,解释已知,预测未知。

12

那该如何描述信息的度量呢?

一位苏联数学家给出了三种途径:基于组合、基于概率、基于算法。前两种其实香农已经提出过,他的创意在第三种。比如,莎士比亚全集的信息量有多大?你用组合、概率都不好使。用算法,你就可以根据对象的复杂度,也就是生成一个对象所需要的最短的计算机程序的长度,来进行度量。

研究到这里,你就会发现,信息、随机性和复杂度这三者本质上是等价的。

那到底没有意义的数字存在吗?

数学家们就是这么执著。他们发现,有意思的数的列表终究会在某处终结,一定存在某个没有意义的数。但这会带来悖论:因为它可以 被称为“最小的没意思的数”。蔡廷选用计算机程序语言来研究算法信息论时,就发现了类似的悖论。

蔡廷一直没有放弃对绝对确定性的研究,尽管他面对的现实,始终都是不完全性、不可计算性甚至算法随机性。在量子物理学以及混沌理论中,科学家们也发现了宇宙的不确定性,以致于爱因斯坦不无担忧地说这是“上帝在掷骰子”。

如果复杂的信息能被最大化压缩,就会让信息的传递更为经济有效。这也是香农研究数据压缩理论的直接目的。

依托编码算法,很多设备可以实现对数的压缩。比如书中提到了香农-法诺编码,哈夫曼编码算法。

一个俄罗斯学生,在香农信息论的影响下,开始研究“信息装载”、“归纳推理”的问题。其中的核心就是:“计算机也能从经验中学习吗?”

结论是肯定的。计算机使用归纳推理,就可以从无规律的信息流中识别出规律。某种意义上看,科学规律就像一种数据压缩,理论物理学家就是编码算法。

一条讯息就是一种算法,接收方则是一部机器,所以,在信息传递中,无需考虑任何意义,不管你是美妙的音乐还是枯燥的数字,只要考虑某个算法含有多少信息就好了。

最终,不同科学家的研究得出了同一个答案:最短程序的长度跟复杂性有关。复杂性越高,随机性也就越高,信息量越大,完全随机序列是无法压缩的。这可以称得上是香农信息论的发展巅峰了。

但是,它并不完美。因为,信息量和信息价值还是两码事,比如在艺术领域,我们就能举出明显的相背离例子。

由此,另一个概念出现了:逻辑深度。完全随机、不可预测,或者单纯重复、规律性特强,这两种极端状态都属于没有逻辑深度。相应的,具有一定难度、需要耗费计算力的,才算有逻辑深度。

13

理查德• 费曼曾说:“没有人真正理解量子力学。”

量子力学的历史并不长,但是争论却喧嚣的很,以致于量子理论学家克里斯托弗 •  福克斯干脆跑去研究物理学原理了。而且,他认为,这样的原理就在量子信息论里。量子力学是围绕信息展开的,因为信息就是量子化的比特。

你可能听说过,费曼的老师,著名的核裂变先驱惠勒有个名言,“黑洞无毛”。意思是,黑洞外面能够观察到的只有黑洞的质量,其他的信息,即便是个“毛”,都观察不到。惠勒还提出了另外一个脍炙人口的流行语:“万物源自比特。”在他眼中,信息第一性,物质第二性。世界的本原是信息。

黑洞来自爱因斯坦的广义相对论斯蒂芬• 霍金是黑洞研究方面的一个重要人物。霍金提出了霍金辐射,说黑洞在向外辐射粒子,黑洞会慢慢蒸发,最后消失。很多人反对霍金,因为信息是不灭的,如果消失了,量子力学就不存在了。

甚至1997年时加州理工学院的约翰• 普雷斯基尔教授还和霍金打赌,赌注是一套百科全书,说信息一定会以某种方式逃出黑洞。结果,霍金到2004年的时候,承认他输了。他新的研究结论是,黑洞并不全黑,信息是守恒的、始终存在。

查尔斯 • 本内特则是沿着另一条不同的路线涉足量子信息论的。他通过对“计算的热力学”研究,认为计算是个心理过程,是会消耗热量,同时也产生了熵,发生了熵增加。冯 • 诺依曼也做过估算,证明信息传输会耗热量。

但物理学家罗尔弗 • 兰道尔出了一个著名的论文《信息是物理的》,推翻了这一结论。兰道尔认为,大多数的逻辑操作并不增加熵,只要信息变化过程可逆,熵就没有改变,只有不可逆的操作才会增加熵,比如信息的擦除。信息总是与物理载体联系的,必须遵循物理定律。

后来,本内特制造了一个“玛莎阿姨”的设备,用来演示信息处理任务如何通过量子系统来完成。在这之后不久,量子纠错、量子隐形传态以及量子纠缠、量子计算机等设想随之出现。

量子纠缠,说的是两个粒子处在纠缠态,一个粒子表现出一种状态,另一个粒子会马上表现出同样一种状态,这个状态是不可预测 的。如果用传统信道,信息传递的过程中可能会被截获。如果用量子纠缠态,就可以解决这个问题。

而在量子计算机中,量子比特是相互纠缠的,多个量子比特工作,威力会呈指数增加,计算力就会变得超强,同时,安全性也会超高。

14

量子计算机的探索现在还在进行。可惜的是,香农晚年深受病魔困扰,2001年已经去世了。

做为信息时代开创在者之一,香农虽然没有能亲眼见证21世纪的蓬勃发展的信息科学,但他的英名却永远和信息一起,成为不朽的历史。

万物源自比特。

信息时代的洪流喷涌而出,我们人类该如何应对这一挑战呢?

下回,我们接着讲第三部分:洪流。

今天的解读就到这里。倾一生之力,读经典好书,写有厚度的文字,过有深度的人生。我是杜豆豆,感谢你的收听。明天我们继续解读《100本互联网人必读》系列的第一本书《信息简史》,欢迎持续关注。

(未完待续)

创作不易,非授权不得转载,转载请注明出处。如果您觉的文章有用,别忘了在文末点赞哦。

读更多好书,请访问我的文集连载:《一生必读的万卷好书》

我是最高级别的“简书会员合伙人”。欢迎您加入“万卷好书读书会”:会员已超200人,需群主拉入。有兴趣的简友请加微信dudoudou189联系我。读书会座右铭:在浮躁的时代,安心读书写作,养育心灵。

相关文章

  • 《信息简史》3-2:香农的信息论(下)

    《100本互联网人必读》系列:《信息简史》3-2:香农的信息论(下) 文/杜豆豆 倾一生之力,读经典好书,写有厚度...

  • Oct.08 《信息简史》3-2:香农的信息论2

    文/杜豆豆 (接上篇) 4 那信息是什么?香农说,“信息是不确定性,是出人意料,是困难程度,是熵。” 不确定性就譬...

  • 信息论学习

    信息论 香农信息论的“信息”并不包含意义。信息论传递的是信息/消息/讯息/信号,其中:(1)消息/讯息是信息的载体...

  • 《信息简史》3-1:香农的信息论(上)

    《100本互联网人必读》系列:《信息简史》3-1:香农的信息论(上) 文/杜豆豆 倾一生之力,读经典好书,写有厚度...

  • Episode 8:信息的传递与接收 | 香农第二定理

    信息的传递 谈到信息不得不提信息论的创始人香农,本篇讲述的主题信息传递就跟他的香农第二定理相关。 香农第二定理: ...

  • 从信息论看机器学习

    从信息论鼻祖香农1948年创立信息论起,信息论有了坚实的数学基础,人类拉开了信息时代的序幕。 人工智能或者说机器学...

  • 《熵减:华为活力之源》读书总结

    熵本是热力学第二定律的概念,信息论鼻祖香农将其引入至信息论去度量信息,开创了信息论,奠定了通信及信息革命的理论基础...

  • 香农信息论笔记

    香农到底解决了什么问题? 三个基本概念:信源熵,信道容量,率失真函数 三个极限定理:无失真信源编码,限失真信源编码...

  • 什么是信息熵?

    1948 年,伟大的信息论之父香农(Shannon)将热力学中熵的概念引入到了信息论中,提出了“信息熵”这一概念。...

  • 自信息, 信息熵, 互信息和K-L散度

    香农-信息论领域的牛顿 香农一生发表的文章并不多,但是篇篇都是精品。Amethematical theory of...

网友评论

    本文标题:《信息简史》3-2:香农的信息论(下)

    本文链接:https://www.haomeiwen.com/subject/trvrqctx.html