《信息简史》3-2：香农的信息论（下）

作者: 北京杜豆豆 | 来源:发表于2019-06-21 06:34 被阅读22次

《信息简史》3-2：香农的信息论（下）
Oct.08 《信息简史》3-2：香农的信息论2
信息论学习
《信息简史》3-1：香农的信息论（上）
Episode 8：信息的传递与接收 | 香农第二定理
从信息论看机器学习
《熵减：华为活力之源》读书总结
香农信息论笔记
什么是信息熵？
自信息, 信息熵, 互信息和K-L散度

《100本互联网人必读》系列：《信息简史》3-2：香农的信息论（下）

文/杜豆豆

倾一生之力，读经典好书，写有厚度的文字，过有深度的人生。大家好，我是杜豆豆。欢迎收听我解读的《100本互联网人必读》系列。

理查德 • 道金斯

（接香农的信息论（上），上回讲到“生物学被引入了熵计算，并带来了人们对生命编码的思考。”）

格雷克说，关于生物体的完整描述都已写在了卵里。

生物体遗传所依托的载体，很可能就是一些基本粒子。

1910年，丹麦数学家威廉 • 约翰森提出了基因的概念。他认为，是基因在控制生物体的遗传，不单是身体的属性，还有更抽象的本质。

那这个本质是什么呢？

研究豆子的孟德尔做了大量的实验，发现了遗传因子。但是，这么微小的东西，是怎么控制生物体的生长发育的呢？他想到了摩尔斯电码中的符号和停顿。用两个符号，就可以实现有序的编码，生成人类所有的语言。那基因是不是也有编码呢？

按照薛定谔的思路，基因不但有编码，还有指令、信号、存储、转换等等，于是信息论融入了生物学，兴起了分子生物学这样的新学科。

一位放射学先驱亨利 • 克斯特，用信息论估算出了一个氨基酸和一个蛋白质分子的信息量。他的一位同事提出了为染色体编指令的设想。

一时间，熵、噪声、信息传输等等概念，都被运用到了细胞结构、生态系统这样的领域。基因组也被设想了出来。

进一步的研究，发现基因可能不在蛋白质这里，而在另一种物质上，这种物质，我们今天很熟悉，叫做DNA。

DNA的基本单位是核苷酸，每个核苷酸有1个碱基，一共有4种。这四种核苷酸就是遗传编码的字母，以双螺旋结构形成碱基序列，代表着生命的编码。DNA分子就这样折折叠叠，形成染色体。要用遗传信息时，就会复制到DNA，然后翻译成蛋白质。

那基因就是DNA吗？还是说基因是由DNA组成的？或者基因是以DNA为载体的？

目前被公认的回答是，基因是DNA核苷酸的一段线性排列，决定了生物的某些性状。

在基因的研究中，有位年轻的动物学家——理查德 • 道金斯——写了本有名的科普读物《自私的基因》，引起了大众的注意。他的观点是，我们人类不过是台生存机器，是用来保全基因这种自私的分子的。

可是，这本书没有解答生物体的利他行为。比如，动物会牺牲个体保护种族，人类英雄会牺牲自己成就别人。如果从自私的基因的角度，归结到种族繁衍。那么，基因又是如何去意识到这些的呢？是不是应该有信息量的积累，才可能形成这样的意识呢？

换句话说就是，有一些大分子，是承载了信息的大分子，它从人类做出自然选择就开始积累，不断复制，形成了一定的智能，变成了主动而有意识的能力，并演化出相应的细胞结构和身体机能。

这样说来，基因也就不再是什么DNA上的片段，而是信息，是由比特构成的。

生命本质上就是负熵，是信息。它是不同于达尔文观点的另一种自然选择——基因做出的主动选择，和由什么物质构成没有太大关系，它是信息的传递。

这种说法，让我们感觉恍惚摸到了灵魂，触到了思想。

文艺青年们常说，灵魂是不死的，思想是不朽的。其实从信息论来看，这个说法不无道理。思想可以脱离肉体而存在，因为它是可以传播和进化下去的。

如果说，生物体的最基本单位是基因的话，那么，这种抽象的思想，它的信息单位该是什么呢？

理查德 • 道金斯给了一个命名，叫做“模因”。他说：“模因通过一个广义上可称为模仿的过程，在一个个大脑间跳转，从而在模因池里传播开来。” 模因间会竞争、争夺资源——也就是会尽可能争取大脑的注意，并通过在大脑间的不断复制，得以传播。模因的形式多样，它可能是：

一种思想。比如对上帝的信仰。

一段旋律。比如经典的《命运交响曲》的前奏，或者一时流行的“我是你的小呀小苹果”。

一个流行语。比如“适者生存”。

一幅图像。比如《蒙娜丽莎》。

它们都可以脱离物质而存在，既不是粒子，也不是基因，而是植入我们大脑并且可以复制和传给下一个人的信息。这种信息抽象、无形、不可度量，而且很容易蔓延开来，具有传染性和感染力，如同病毒一样强大，无孔不入。

连锁信、羊群行为、银行挤兑、信息瀑布、金融泡沫、减肥食谱等等，一阵阵风潮的快速兴起又消退，都在向我们展示着它们真实的存在。

这让我们不得不思索，到底是我们在掌控模因，还是模因在掌控我们呢？我们真的可以掌控自己的心智吗？这个问题，至今没有定论。

爱因斯坦说，原子有随机性。香农说，信息有随机性。

随机性到底指什么？

有位经济学家用对立面，给了随机性一个定义：任何事先知道的、由某种特定原因决定的或根据某种计划实施的，都不是随机的。这又扯出了另一个概念：或然性。庞加莱有句名言说：“或然性不过是我们的无知的一种量度。”因为没掌握其中规律，只能稀里糊涂。但随机性不同，它可能是事物的本质。

比如，3.1415926......，你可以认为它是随机的，但它也是特殊的，是圆周率对吧？

什么样的数才算是真正的随机数？

这个问题，咱们计算机界的先驱，冯 • 诺依曼，曾说过这么一句话：“ 任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为......不存在一个随机数这样的东西——有的只是生成随机数的方法，而一种严格的算术方法显然不属于其中之一。”

对数来说，不可避免会存在一些规律性。那么，算法下出来的，也只能是伪随机数。

抛硬币是随机的吗？但按牛顿运动定律和概率论，它又是有规律，可以算出来的。

随机性，或许可以理解为一种秩序的缺失。

给你个数，比如说01010101，10000100。这是我随机写的，但放在特定的场合，它可能是一段密码。如果给香农看，他或许会说，前一个比后一个的信息量大，为什么？因为前一个有冗余，有重复规律，是可预测的。

这样说来，随机程度如何与含有多少信息其实是一回事。信息的本质就是随机性。

凡是可计算的，能被一个可定义的计算机程序生成的，都不是随机的。可计算性是随机性的一种度量。

熵是信息的无序程度，是可以用算法来表示的。香农说信息是熵。科学家们每天在做的，就是从这些无序的信息里找出秩序，形成理论，解释已知，预测未知。

那该如何描述信息的度量呢？

一位苏联数学家给出了三种途径：基于组合、基于概率、基于算法。前两种其实香农已经提出过，他的创意在第三种。比如，莎士比亚全集的信息量有多大？你用组合、概率都不好使。用算法，你就可以根据对象的复杂度，也就是生成一个对象所需要的最短的计算机程序的长度，来进行度量。

研究到这里，你就会发现，信息、随机性和复杂度这三者本质上是等价的。

那到底没有意义的数字存在吗？

数学家们就是这么执著。他们发现，有意思的数的列表终究会在某处终结，一定存在某个没有意义的数。但这会带来悖论：因为它可以被称为“最小的没意思的数”。蔡廷选用计算机程序语言来研究算法信息论时，就发现了类似的悖论。

蔡廷一直没有放弃对绝对确定性的研究，尽管他面对的现实，始终都是不完全性、不可计算性甚至算法随机性。在量子物理学以及混沌理论中，科学家们也发现了宇宙的不确定性，以致于爱因斯坦不无担忧地说这是“上帝在掷骰子”。

如果复杂的信息能被最大化压缩，就会让信息的传递更为经济有效。这也是香农研究数据压缩理论的直接目的。

依托编码算法，很多设备可以实现对数的压缩。比如书中提到了香农-法诺编码，哈夫曼编码算法。

一个俄罗斯学生，在香农信息论的影响下，开始研究“信息装载”、“归纳推理”的问题。其中的核心就是：“计算机也能从经验中学习吗？”

结论是肯定的。计算机使用归纳推理，就可以从无规律的信息流中识别出规律。某种意义上看，科学规律就像一种数据压缩，理论物理学家就是编码算法。

一条讯息就是一种算法，接收方则是一部机器，所以，在信息传递中，无需考虑任何意义，不管你是美妙的音乐还是枯燥的数字，只要考虑某个算法含有多少信息就好了。

最终，不同科学家的研究得出了同一个答案：最短程序的长度跟复杂性有关。复杂性越高，随机性也就越高，信息量越大，完全随机序列是无法压缩的。这可以称得上是香农信息论的发展巅峰了。

但是，它并不完美。因为，信息量和信息价值还是两码事，比如在艺术领域，我们就能举出明显的相背离例子。

由此，另一个概念出现了：逻辑深度。完全随机、不可预测，或者单纯重复、规律性特强，这两种极端状态都属于没有逻辑深度。相应的，具有一定难度、需要耗费计算力的，才算有逻辑深度。

理查德• 费曼曾说：“没有人真正理解量子力学。”

量子力学的历史并不长，但是争论却喧嚣的很，以致于量子理论学家克里斯托弗 • 福克斯干脆跑去研究物理学原理了。而且，他认为，这样的原理就在量子信息论里。量子力学是围绕信息展开的，因为信息就是量子化的比特。

你可能听说过，费曼的老师，著名的核裂变先驱惠勒有个名言，“黑洞无毛”。意思是，黑洞外面能够观察到的只有黑洞的质量，其他的信息，即便是个“毛”，都观察不到。惠勒还提出了另外一个脍炙人口的流行语：“万物源自比特。”在他眼中，信息第一性，物质第二性。世界的本原是信息。

黑洞来自爱因斯坦的广义相对论。斯蒂芬• 霍金是黑洞研究方面的一个重要人物。霍金提出了霍金辐射，说黑洞在向外辐射粒子，黑洞会慢慢蒸发，最后消失。很多人反对霍金，因为信息是不灭的，如果消失了，量子力学就不存在了。

甚至1997年时加州理工学院的约翰• 普雷斯基尔教授还和霍金打赌，赌注是一套百科全书，说信息一定会以某种方式逃出黑洞。结果，霍金到2004年的时候，承认他输了。他新的研究结论是，黑洞并不全黑，信息是守恒的、始终存在。

查尔斯 • 本内特则是沿着另一条不同的路线涉足量子信息论的。他通过对“计算的热力学”研究，认为计算是个心理过程，是会消耗热量，同时也产生了熵，发生了熵增加。冯 • 诺依曼也做过估算，证明信息传输会耗热量。

但物理学家罗尔弗 • 兰道尔出了一个著名的论文《信息是物理的》，推翻了这一结论。兰道尔认为，大多数的逻辑操作并不增加熵，只要信息变化过程可逆，熵就没有改变，只有不可逆的操作才会增加熵，比如信息的擦除。信息总是与物理载体联系的，必须遵循物理定律。

后来，本内特制造了一个“玛莎阿姨”的设备，用来演示信息处理任务如何通过量子系统来完成。在这之后不久，量子纠错、量子隐形传态以及量子纠缠、量子计算机等设想随之出现。

量子纠缠，说的是两个粒子处在纠缠态，一个粒子表现出一种状态，另一个粒子会马上表现出同样一种状态，这个状态是不可预测的。如果用传统信道，信息传递的过程中可能会被截获。如果用量子纠缠态，就可以解决这个问题。

而在量子计算机中，量子比特是相互纠缠的，多个量子比特工作，威力会呈指数增加，计算力就会变得超强，同时，安全性也会超高。

量子计算机的探索现在还在进行。可惜的是，香农晚年深受病魔困扰，2001年已经去世了。

做为信息时代开创在者之一，香农虽然没有能亲眼见证21世纪的蓬勃发展的信息科学，但他的英名却永远和信息一起，成为不朽的历史。

万物源自比特。

信息时代的洪流喷涌而出，我们人类该如何应对这一挑战呢？

下回，我们接着讲第三部分：洪流。

今天的解读就到这里。倾一生之力，读经典好书，写有厚度的文字，过有深度的人生。我是杜豆豆，感谢你的收听。明天我们继续解读《100本互联网人必读》系列的第一本书《信息简史》，欢迎持续关注。

（未完待续）

创作不易，非授权不得转载，转载请注明出处。如果您觉的文章有用，别忘了在文末点赞哦。

读更多好书，请访问我的文集连载：《一生必读的万卷好书》

我是最高级别的“简书会员合伙人”。欢迎您加入“万卷好书读书会”：会员已超200人，需群主拉入。有兴趣的简友请加微信dudoudou189联系我。读书会座右铭：在浮躁的时代，安心读书写作，养育心灵。

《信息简史》3-2：香农的信息论（下）
《100本互联网人必读》系列：《信息简史》3-2：香农的信息论（下）文/杜豆豆倾一生之力，读经典好书，写有厚度...
Oct.08 《信息简史》3-2：香农的信息论2
文/杜豆豆（接上篇） 4 那信息是什么？香农说，“信息是不确定性，是出人意料，是困难程度，是熵。” 不确定性就譬...
信息论学习
信息论香农信息论的“信息”并不包含意义。信息论传递的是信息/消息/讯息/信号，其中：（1）消息/讯息是信息的载体...
《信息简史》3-1：香农的信息论（上）
《100本互联网人必读》系列：《信息简史》3-1：香农的信息论（上）文/杜豆豆倾一生之力，读经典好书，写有厚度...
Episode 8：信息的传递与接收 | 香农第二定理
信息的传递谈到信息不得不提信息论的创始人香农，本篇讲述的主题信息传递就跟他的香农第二定理相关。香农第二定理： ...
从信息论看机器学习
从信息论鼻祖香农1948年创立信息论起，信息论有了坚实的数学基础，人类拉开了信息时代的序幕。人工智能或者说机器学...
《熵减：华为活力之源》读书总结
熵本是热力学第二定律的概念，信息论鼻祖香农将其引入至信息论去度量信息，开创了信息论，奠定了通信及信息革命的理论基础...
香农信息论笔记
香农到底解决了什么问题？三个基本概念：信源熵，信道容量，率失真函数三个极限定理：无失真信源编码，限失真信源编码...
什么是信息熵？
1948 年，伟大的信息论之父香农（Shannon）将热力学中熵的概念引入到了信息论中，提出了“信息熵”这一概念。...
自信息, 信息熵, 互信息和K-L散度
香农-信息论领域的牛顿香农一生发表的文章并不多，但是篇篇都是精品。Amethematical theory of...

《信息简史》3-2：香农的信息论（下）

相关文章

《信息简史》3-2：香农的信息论（下）

Oct.08 《信息简史》3-2：香农的信息论2

信息论学习

《信息简史》3-1：香农的信息论（上）

Episode 8：信息的传递与接收 | 香农第二定理

从信息论看机器学习

《熵减：华为活力之源》读书总结

香农信息论笔记

什么是信息熵？

自信息, 信息熵, 互信息和K-L散度

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

万卷好书

洞察钻榜

读书

每天写1000字

散文

想法

读书让生活美好

优秀作品荟萃