作者:梅拉妮·米歇尔(Melanie Mitchell)
译者:唐璐
原著名称:《Complexity: A Guided Tour》
出版:湖南科学技术出版社,2011-8-1
原著出版时间:2009年
来源:下载的 mobi 版本
豆瓣评分:9.0(956人评价)
傅盛前几天写了一篇「傅盛读《复杂》有感:所有现实复杂事物,是否有底层统一规律?【好书推荐】」,推荐了这本书,鉴于傅盛在互联网阅读圈的影响力,毫不犹豫就读了起来,属于继《失控》《哥德尔、艾舍尔、巴赫——集异壁之大成》之后,读到的第三本烧脑的书
作者 Melanie Mitchell 在维基百科上留下了一些个人信息,是一位非常活跃的学者,可以 follow:
个人页面:http://web.cecs.pdx.edu/~mm/
Twitter:https://twitter.com/MelMitchell1
作者是 侯世达(Douglas Hofstadter) 的学生,侯世达是《哥德尔、艾舍尔、巴赫——集异壁之大成》的作者,文章这样描述了两人的关系:
20世纪80年代初,我大学刚刚毕业,还不是很明确今后该做些什么,我到纽约的一所中学当数学老师。这份工作的薪水很低,而纽约物价昂贵,因此我削减了不必要的开支。但我还是买了一本新出的书,作者是印第安纳大学(Indiana University)的一位计算机系教授,题目有点奇怪,《哥德尔、艾舍尔、巴赫——集异璧之大成》。因为我的专业是数学,又参观过许多博物馆,所以知道哥德尔和艾舍尔是谁,而且我也喜欢古典音乐,所以对巴赫也很熟悉。但是将他们的名字放到一起作为书的标题就让我搞不懂了,这勾起了我的好奇心。
没想到侯世达的书改变了我的一生。从题目看不出来,书的内容是思维和意识是如何从大量简单神经元的分散行为中涌现出来的,这类似于细胞、蚁群和免疫系统的涌现行为。这本书让我第一次了解了复杂系统的一些主要思想。
侯世达想用类似的原理建造有智能和“自我意识”的计算机程序。这很快也成了让我充满激情的目标,我决定去跟侯世达研究人工智能。
问题是,我只是一个刚刚大学毕业的无名小卒,而侯世达则是获得了普利策奖(Pulitzer Prize)和美国国家图书奖(National Book Award)的著名畅销书作家。我给他写了一封信,说我想跟他读研究生。但是我没有收到回信(后来才知道他没有收到那封信),因此我只好等待时机,并且学了一些AI的知识。
一年后我搬到了波士顿,换了工作,并学习了计算机课程,为我将来的事业做准备。有一天我碰巧看到侯世达将要到麻省理工学院(MIT)演讲的海报。这真让人兴奋,我立刻决定前往,挤进了狂热的书迷中(不仅仅只有我被侯世达的书改变了),希望能和他近距离接触。我终于挤到了前面,握到了侯世达的手,还告诉他我想参与他的AI研究,希望能申请印第安纳大学。他告诉我他实际上就住在波士顿,这一年他在MIT人工智能实验室访问。当时因为后面还有很多书迷在等着,侯世达就让我去旁边和他以前的一个学生详谈,转而接待其他读者。
我很失望,但是并没有放弃。我设法找到了侯世达在MIT人工智能实验室的电话号码,并且拨了几次。每次都是秘书接的电话,她告诉我侯世达不在,让我有事可以留口信。我留了口信,但是没有收到答复。
此后有一天晚上,我躺在床上琢磨该怎么办。我突然想到,我打电话的时候都是在白天,他都不在那里。既然侯世达白天总是不在,那他什么时候会在呢?肯定是在晚上!当时已是晚上11点,不过我还是起来拨了那个熟悉的号码。接电话的正是侯世达。
他很友好,和蔼可亲。我们谈了一会儿,他邀请我第二天去他的办公室谈,看我能在他的研究小组里做些什么。我如约而至,然后我们谈论了侯世达当时正在研究的课题——写一个能进行类比的计算机程序。
有时候要想有所收获,得有点斗牛犬的精神。
摘录:
还原论是对这个世界最自然的理解方式。它是说“如果你理解了整体的各个部分,以及把这些部分‘整合’起来的机制,你就能够理解这个整体”。只要是精神正常的人就不会反对还原论。
——侯世达(Douglas Hofstadter),《哥德尔、艾舍尔、巴赫——集异壁之大成》
还原论的计划在许多现象面前都止步不前:天气和气候似乎无法还原的不可预测性;生物以及威胁它们的疾病的复杂性和适应性;社会的经济、政治和文化行为;现代技术与通讯网络的发展和影响;智能的本质以及用计算机实现智能的可能前景。对复杂行为如何从简单个体的大规模组合中出现进行解释时,混沌、系统生物学、进化经济学和网络理论等新学科胜过了还原论,反还原论者的口号——“整体大于部分之和”—也随之变得越来越有影响力。
20世纪中叶,许多科学家意识到,这类现象无法被归入单个学科,而需要在新的科学基础之上从交叉学科的角度进行理解。一些人开始尝试建立新的基础,这其中包括控制论、协同学、系统科学,以及最近才出现的——复杂系统科学。
1984年,来自不同学科的24位科学家和数学家在新墨西哥州圣塔菲的高原沙漠会聚一堂,讨论“科学中涌现的综合”。他们的目标是筹划建立一家新的研究机构,“致力于研究各种高度复杂和相互作用的系统,这些系统只有在交叉学科的背景下才能研究清楚”并“推动知识的统一和共担责任的意识,与目前盛行的知识界的各自为政作斗争”。就这样,圣塔菲研究所作为复杂系统的研究中心被建立起来了。
1984年我还没有听说过“复杂系统”一词,虽然头脑中巳经有了类似的想法。我当时是密歇根大学计算机系的一年级研究生,研究方向是人工智能,也就是让计算机像人一样思维。事实上,我的一个目标就是理解人类如何思维—万亿个微小的脑细胞以及它们的电和化学通讯如何涌现出抽象思维、情感、创造性,甚至意识。我曾深深迷恋于物理学和还原论的目标,后来才领悟到,目前的物理学对于智能可以做的很少,即便是专门研究大脑细胞的神经科学,也无法理解思维如何从大脑活动中涌现出来。很显然还原论者对认知的研究是误入歧途—我们根本无法在单个神经元和突触的层面上理解认知。
因此,虽然我以前没有听说过复杂系统研究,它却很快引起了我的强烈共鸣。同时我也感到,我自己的研究领域—计算机科学—在这里可以大有作为。受研究计算的先驱们影响,我觉得计算的思想要比操作系统、编程语言、数据库之类的东西深刻得多,计算的本质与生命和智能的内在本质有密切的关联。我很幸运,在密歇根大学,“自然系统中的计算”是系里的核心课程,与软件工程和编译器设计一样。
巴西:亚马孙雨林。几十万只行军蚁(army ant)在行进。没有谁掌控这支军队,不存在指挥官。单个蚂蚁几乎没有什么视力,也没有多少智能,但是这些行进中的蚂蚁聚集在一起组成了扇形的蚁团,一路风卷残云,吃掉遇到的一切猎物。不能马上吃掉的就会被蚁群带走。在行进了一天并摧毁了足球场大小的浓密雨林中一切食物后,蚂蚁会修筑夜间庇护所—由工蚁连在一起组成的球体,将幼蚁和蚁后围在中间保护起来。天亮后,蚁球又会散成一只只蚂蚁,各就各位进行白天的行军。
专门研究蚂蚁习性的生物学家弗兰克斯(Nigel Franks)写道,“单只行军蚁是已知的行为最简单的生物”,“如果将100只行军蚁放在一个平面上,它们会不断往外绕圈直到体力耗尽死去”。然而,如果将上百万只放到一起,群体就会组成一个整体,形成具有所谓“集体智能(collective intelligence)”的“超生物(superorganism)”。
免疫系统是又一个例子。在免疫系统中,相对简单的组分一起产生出包含信号传递和控制的复杂行为,并不断进行适应。
同大脑一样,不同动物的免疫系统复杂程度也各不相同,但总体上的原则是一样的。免疫系统由许多不同的细胞组成,分布在身体各处(血液、骨髓、淋巴结等)。这些细胞在没有中央控制的情况下一起高效地工作。
免疫系统中的主角是白细胞,也称为淋巴细胞。白细胞能通过其细胞体上的受体识别与某种可能入侵者(比如细菌)相对应的分子。大量白细胞哨兵在血液中不停巡逻,如果被激活—也就是特定受体偶然遇到了与其匹配的入侵者——就发出警报。一旦淋巴细胞被激活,就会分泌出大量能够识别类似入侵者的分子——抗体。这些抗体会到处去搜寻和摧毁入侵者。被激活的淋巴细胞的分裂速度也会加快,从而产生出更多后代淋巴细胞,帮助搜寻入侵者和释放抗体。后代淋巴细胞会不断繁衍,从而让身体能记住入侵者特征,再次遇到这种入侵者时就能具有免疫力。
有一类细胞被称为B细胞(B是指它们产生自骨髓,Bone marrow),它具有一种奇特的性质:B细胞与某种入侵者匹配得越好,它产生的后代细胞就越多。通过随机变异,子细胞与母细胞会稍有不同,而这些子细胞产生后代的能力也与它们同入侵者相匹配的程度成正比。这样就形成了达尔文自然选择机制,B细胞变得与入侵者越来越匹配,从而产生出能极为高效地搜寻和摧毁微生物罪犯的抗体。
还有许多种类的细胞也参与了免疫反应的大合奏。T细胞(产生自胸腺,Thymus)对于调节B细胞的反应很重要。巨噬细胞四处游荡,寻找已被抗体标记的东西,然后将其摧毁。有些细胞让免疫能长期有效。此外系统中还有一部分是用来防止免疫系统攻击身体的正常细胞。
亚里士多德是目前所知的最早论述运动理论的人之一,他的理论流行了1500多年。他的理论有两个主要原理,后来发现都是错的。首先,他认为地面上的运动与天上的不同。他认为地面上的物体在受到力推动时才会沿直线运动;没有力,物体就会保持静止。而在天上,行星等天体是围绕着地球不断做圆周运动。另外,亚里士多德认为,在地面上,不同物质组成的物体运动方式也不一样。比如,他认为石头落向地面是因为石头主要是由土元素组成,而烟会上升则是因为烟是由气元素组成。在天上也是一样,越重的物体中的土元素越多,下落也越快。
同以前许多理论家一样,亚里士多德在构造理论时没有考虑实验验证。他的方法是用逻辑和常识引导理论;用实验对理论进行验证的重要性当时还没有被认识到;亚里士多德的思想影响很大,一直统治着西方科学,直到16世纪——伽利略登上历史舞台。
伽利略、他之前的哥白尼以及与他同时代的开普勒是实验和观察科学的先驱。哥白尼提出行星不是围绕地球而是围绕太阳运行。(伽利略在宣扬这种观点时受到了天主教会的强烈阻挠,最后被迫公开宣布放弃。直到1992年教会才正式承认对伽利略的迫害是错误的。)在16世纪初,开普勒发现行星的运行轨迹不是圆而是椭圆,他还发现了关于这种椭圆运动的几条定律。
哥白尼和开普勒只研究了天体的运动,而伽利略则不仅研究天上的运动,也研究地面上的,他做了一些我们现在在中学物理课上会学到的实验:单摆、沿斜面滚动的小球、自由落体、镜面光线反射。不过伽利略可没有我们现在使用的那些精密实验设备,据说他通过数脉搏计算单摆的摆动周期,还在比萨斜塔上下落物体以测量重力的效应。这些经典实验彻底改变了对运动的理解,并且直接驳斥了长期盛行的亚里士多德的观点。与直觉不同,静止并不是物体的自然状态;相反,要施加力才能让运动物体停下来。不管物体多重,在真空中下落的速度都是一样的。最具革命性的是,地面上的运动定律居然也能解释天上的运动。自从伽利略之后,有了实验观察作为基础,科学革命的发生就不可避免了。
动力学历史上最重要的人物是牛顿,牛顿生于伽利略死后那一年。他可以说是凭一己之力创建了动力学。为了创建动力学,他还要先发明微积分——描述运动和变化的数学。
牛顿的伟大之处在于他认识到这些定律不仅适用于地面上的物体,对天上的物体也同样适用。匀速运动定律是伽利略首先提出来的,但是他认为只适用于地面上的物体。而牛顿则认为这条定律对行星应该也适用,并且认识到需要用力(引力)来解释椭圆运动方向的不断变化。牛顿的另一重要贡献是提出了万有引力定律:两个物体之间的引力与两者质量的乘积成正比,与两者距离的平方成反比。牛顿深刻认识到这条定律适用于宇宙中一切事物,无论是行星还是苹果,这个认识是现代科学的基石。正如他说的:“自然简单而自足,对宏大物体的运动成立的,对微小物体也同样成立。”
牛顿力学描绘了一幅“钟表宇宙”的图景:设定好初始状态,然后就遵循着三条定律一直运行下去。数学家拉普拉斯认识到其中蕴含了可以如钟表般精准预测的观念:他在1814年断言,根据牛顿定律,只要知道宇宙中所有粒子的当前位置和速度,原则上就有可能预测任何时刻的情况。在20世纪40年代计算机被发明出来之后,这种“原则上”的可能似乎有可能变成现实了。
然而,20世纪的两个重要发现表明,拉普拉斯的精确预测的梦想,即使在原则上也是不可能的。1927年,海森堡(Werner Heisenberg)提出了量子力学中的“测不准原理”,证明不可能在准确测量粒子位置的同时,又准确测量其动量(质量乘以速度)。对于其位置知道得越多,对于其动量就知道得越少,反过来也是一样。不过,海森堡原理还只是限制了对量子世界微观粒子的测量,大多数人都只是觉得它挺有趣,但是对宏观尺度上的预测——比如天气预报——应该没有多大影响。
然而混沌的发现给了精确预测的梦想最后一击。混沌指的是一些系统——混沌系统——对于其初始位置和动量的测量如果有极其微小的不精确,也会导致对其的长期预测产生巨大的误差。也就是常说的“对初始条件的敏感依赖性”。
对于一些自然系统,并没有这个问题。如果你对初始条件的测量不是十分精确,你的预测即使不全对,也会八九不离十。例如天文学家在测量行星位置时即使误差较大,也还是能准确预测曰食。而对初始条件的敏感依赖性指的是,如果系统是混沌的,在测量初始位置时即使只有极其微小的误差,在预测其未来的运动时也会产生巨大的误差。对于这样的系统(飓风就是例子),一点点误差,不管多小,也会导致长期预测很不精确。
这一点很不符合直觉,事实上,很长一段时间里,科学家们都认为这不可能。然而,混沌现象在很多系统中都被观测到了,心脏紊乱、湍流、电路、水滴,还有许多其他看似无关的现象。现在混沌系统的存在已成为科学中公认的事实。
第一个明确的混沌系统的例子可能是19世纪末由法国数学家庞加莱(Henri Poincaié)给出。庞加莱是现代动力系统理论的奠基者,可能也是贡献最大的人,大力推动了牛顿力学的发展。庞加莱在试图解决一个比预测飓风简单得多的问题时发现了对初始条件的敏感依赖性。他试图解决的是所谓的三体问题(three-body problem):用牛顿定律预测通过引力相互作用的三个物体的长期运动。牛顿已经解决了二体问题。但没想到三体问题要复杂得多。在向瑞典国王表示敬意的一次数学竞赛中,庞加莱将其解决了。竞赛主办方提供2500瑞典克朗奖励解决“多体”问题:用牛顿定律预测任意多个相互吸引的物体的未来运动。提出这个问题是为了确定太阳系是否稳定,行星是会维持还是会偏离目前的轨道?庞加莱想先试着解决三体问题。
他并没有完全成功——这个问题实在太复杂了。但是他的尝试很精彩,所以最后还是赢得了奖金。牛顿发明了微积分,而庞加莱为了解决这个问题也创建了一个新的数学分支—代数拓扑(algebraic topology)。拓扑学是几何学的扩展,正是在研究三体问题的几何结果的过程中,庞加莱发现了对初始条件的敏感依赖性。下面是他对此的总结:
如果我们能知道自然界的定律和宇宙在初始时刻的精确位置,我们就能精确预测宇宙在此后的情况。但是即便我们弄清了自然界的定律,我们也还是只能近似地知道初始状态。如果我们能同样近似地预测以后的状态,这也够了,我们也就能说现象是可以预测的,而且受到定律的约束。但并不总是这样,初始条件的细微差别有可能会导致最终现象的极大不同。前者的微小误差会导致后者的巨大误差。预测变得不可能……
换句话说,即便我们完全知道了运动定律,两组不同的初始条件(在这里是物体的初始位置、质量和速度),即使差别很小,有时候也会导致系统随后的运动极为不同。庞加莱在三体问题中发现了一个这样的例子。
直到电子计算机出现之后,科学界才开始认识这类现象的意义。庞加莱远远超越了他所处的时代,他意识到对初始条件的敏感依赖性将会阻碍对天气的长期预报。他的远见于1963年被证实,气象学家洛伦兹(Edward Lorenz)发现,即使是很简单的计算机气象模型,也会有对初始条件的敏感依赖性。现在虽然有了高度复杂的气象计算模型,天气预报也最多只能做到大致准确预测一个星期。目前还不清楚这个局限是否是天气的混沌本质导致的,也不知道通过收集更多数据和构造更好的模型,可以将这个局限推进多远。
数学生物学家梅对这些惊人的特性进行了总结,与庞加莱遥相呼应:
简单的确定性方程(1)(即逻辑斯蒂映射)能产生类似于随机嗓声的确定性轨道,这个事实有着让人困扰的实际含义。例如,这就意味着种群调查数据中那种明显的不稳定波动不一定表明环境的变化莫测或是采样有错误:它们有可能就是像方程(1)这样完全确定性的种群数量变化关系所导致的……另外,还可以看到,在混沌中,不管初始条件有多接近,在足够长的时间之后,它们的轨道还是会相互分开。这意味着,即使我们的模型很简单,所有的参数也都完全确定,长期预测也仍然是不可能的。
简而言之,系统存在混沌也就意味着,拉普拉斯式的完美预测不仅在实践中无法做到,在原则上也是不可能的,因为我们永远也无法知道X。小数点后的无穷多位数值。这是一个非常深刻的负面结论,它与量子力学一起,摧毁了19世纪以来的乐观心态—认为牛顿式宇宙就像钟表一样沿着可预测的路径运行。
但是对逻辑斯蒂映射的研究是不是也会产生一些正面作用呢?对于试图发现随时间变化的系统的一般原则的动力系统理论,它能有所助益吗?事实上,对逻辑斯蒂等映射的深入研究也已经得到了同样深刻的正面结果——从中发现了混沌系统的普遍特征。
英国物理学家麦克斯韦(James Clerk Maxwell)提出了著名的麦克斯韦方程,从而统一了电学和磁学。他是当时世界上最受尊敬的科学家,也是古往今来最伟大的科学家之一。
1871年,麦克斯韦在《论热能》(Theory of Heat)一书中提出了一个难题,题为“热力学第二定律的局限”。麦克斯韦假设有一个箱子被一块板子隔成两部分,板子上有一个活门,如图3.1所示。活门有一个“小妖”把守,小妖能测量气体分子的速度。对于右边来的分子,如果速度快,他就打开门让其通过,速度慢就关上门不让通过。对于左边来的分子,则速度慢的就让其通过,速度快的就不让通过。一段时间以后,箱子左边分子的速度就会很快,右边则会很慢,这样熵就减少了。
根据第二定律,要减少熵就得做功。小妖又做了什么功呢?当然,他开门关门无数次。但是麦克斯韦假设了小妖使用的门既无质量也无摩擦,因此开门关门要不了多少功,可以忽略不计(对这种门提出了可行的设计)。那么小妖还做了其他的功吗?
麦克斯韦的回答是没有:“热系统(左边)变得更热,冷系统(右边)变得更冷,然而却没有做功,只有一个眼光锐利、手脚麻利的智能生物在工作。”
为什么没做功,熵也减少了呢?这岂不是违反了热力学第二定律?麦克斯韦的小妖难住了19世纪末和20世纪初许多杰出的头脑。麦克斯韦自己的回答是第二定律(熵随时间增加)根本就不是一条定律,而是在大量分子情形下成立的统计效应,在个体分子尺度上并不必然成立。
但是当时和后来许多物理学家都强烈反对。他们认为第二定律绝对没错,肯定是那个小妖玩了猫腻。既然熵减少了,肯定以某种难以确定的方式做了功,否则不可能。
很多人都想解决这个悖论,但是直到60年后这个问题才被圆满解决。1929年,突破出现了:杰出的匈牙利物理学家西拉德(Leo Szilard)提出,做功的是小妖的“智能”,更精确地说,是通过测量获取信息的行为。
西拉德是第一个将熵与信息联系起来的人,这个关联后来成了信息论的基础和复杂系统的关键思想。西拉德写了一篇题为“热力学系统在智能生物的干预下的熵的减少”的著名论文,文中西拉德认为测量过程(小妖要通过测量获取“比特”信息,比如趋近的分子速度是慢是快)需要能量,因此必然会产生一定的熵,数量不少于分子变得有序而减少的熵。这样由箱子、分子和小妖组成的整个系统就仍然遵守热力学第二定律。
西拉德在此过程中也顺便定义了信息比特的概念——通过回答是/否(对小妖是“快/慢”)获得的信息。他可能是第一个这样做的人。
现在回过头来看,获取信息需要额外做功可能是很显然的事情,起码不那么让人吃惊。但是在麦克斯韦的时代,甚至到60年后西拉德写文章的时候,人们仍然强烈倾向于将物理和精神过程视为完全独立。也许正是这种牢固的直觉使得像麦克斯韦这样睿智的人也没有看出小妖的“智能”或“观测能力”对箱子-分子-小妖系统的热力学有影响。直到20世纪发现“观察者”在量子力学中扮演了关键角色之后,信息与物理的关系才开始被理解。
西拉德的理论后来由法国物理学家布里渊(Leon Brillouin)和伽柏(Denis Gabor)进行了扩展和一般化。此后许多科学家都认为,布里渊的理论彻底揭示了测量是如何产生熵,从而终结了小妖。
然而,事情还没有结束。在西拉德的论文发表50年后,西拉德和布里渊的论证都被发现有一些漏洞。20世纪80年代,数学家班尼特(Charles Bennett)证明,有非常巧妙的方式可以观察和记住信息——对小妖来说,也就是弄清分子是快是慢——而不用增加熵。班尼特的证明成了可逆计算(reversible computing)的基础,他证明在理论上可以进行任何计算而不用耗费能量。班尼特的发现似乎意味着小妖又回来了,因为测量可以不用耗费能量。不过,班尼特认为,物理学家兰道(Rolf Landauer)在20世纪60年代做出的一项发现可以挽救热力学第二定律:并不是测量行为,而是擦除记忆的行为,必然会增加熵。擦除记忆是不可逆的;如果被擦除了,那么一旦信息没有了,不进行额外的测量就无法恢复。班尼特证明,小妖如果要工作,到一定的时候就必须擦除记忆,如果这样,擦除的动作就会产生热,增加的熵刚好抵消小妖对分子进行分选而减少的熵。
兰道和班尼特弥补了西拉德论证的漏洞,但思路仍然是一致的:小妖测量和进行判断时(必然会进行擦除),不可避免地会增加熵,从而第二定律仍然成立。(不过仍然有一些物理学家不认可兰道和班尼特的论证,小妖的问题依然存在争议。)
麦克斯韦发明小妖是将其作为一个简单的思维实验,以证明热力学第二定律不是一条定律,而只是统计效应。然而,同其他许多优秀的思维实验一样,小妖的影响很深远;对小妖难题的解决成为两个新领域的基础——信息论和信息物理学。
在前面我将“熵”定义为对无法做功而只能转换成热的能量的测量。这个熵的概念最初是由克劳休斯(Rudolph Clausius)于1865年定义的。在克劳休斯的年代,热被认为是某种可以从一个系统流向另一个系统的流质,而温度则是系统受热流影响的一种属性。
此后数十年里,科学界开始出现一种新的关于热的观念:系统是由分子组成,而热则是分子运动——或者说动能——的产物。这种新观念主要归功于玻尔兹曼(Ludwig Boltzmann),他创建了一门新学科,现在被称为统计力学。
统计力学认为宏观尺度上的属性(例如热)是由微观属性产生(例如无数分子的运动)。比如,想象房间里充满了运动的空气分子。经典力学分析是确定每个分子的位置和速度,以及作用在分子上的力,并根据这些确定每个分子未来的位置和速度。当然,如果有500亿亿个分子,要解出来可得花不少时间—实际上是完全不可能的,并且根据量子力学,在原则上也不可能。而统计力学的方法则不关心各个分子具体的位置、速度以及未来的变化,而是去预测大量分子整体上的平均位置和速度。
简而言之,经典力学试图用牛顿定律分析所有的单个微观对象(例如分子)。而热力学则只给出了宏观现象——热、能量和熵——的定律,没有说明微观分子是这些宏观现象的源头。统计力学则在两个极端之间搭建了一座桥梁,解释了宏观现象是如何从对大量微观对象的整体上的统计产生。
统计方法有一个问题——它只给出系统的可能行为。例如,如果房间里的空气分子随机运动,那么它们将极有可能扩散到整个房间,从而保证我们所有人都可以呼吸到空气。我们预计会这样,并且生命维系于此,而且也从没有失败。然而,根据统计力学,由于分子是随机运动,这样就存在一个极小的概率在某个时间分子都飞到一个角落里。然后那个角落里的人会被高气压压死,而我们其他人则会窒息而死。不过据我所知,这样的事情还从未发生过。这并不违反牛顿定律,只是极为不可能。玻尔兹曼认为,如果有足够多的微观对象进行平均,他的统计方法就几乎一直都能给出正确答案,而事实上也确实如此。但是在玻尔兹曼的时代,大部分物理学家都只接受绝对正确的物理定律,“几乎一直”正确的物理定律是不会被接受的。此外,玻尔兹曼认为存在分子和原子这样的微观对象也让他的同行们感到不可理喻。玻尔兹曼于1906年自杀离世,有人认为这是大多数科学家对他的思想排斥所导致的。他死后不久,他的思想就被广泛认同了;现在他被认为是历史上最伟大的科学家之一。
科学上许多最基本的思想都是由技术进步促进。19世纪的热力学研究就是由改进蒸汽机时遇到的挑战驱使。而数学家香农(Claude Shannon)发展信息论也是受20世纪的通讯革命推动,尤其是电报和电话的发展。1940年,香农改进了玻尔兹曼的思想,以适用于更为抽象的通讯领域。香农在美国电话电报公司(AT&T)贝尔实验室工作。AT&T当时面临的最重要的问题就是如何通过电报和电话线快速有效地传送信息。
香农从数学上解决了这个问题,从而开创了一个新领域—信息论。1948年,香农发表了论文“通讯的数学理论”,在文中香农给出了信息的一个狭义定义,并且证明了一个非常重要的定理,定理给出了通过给定通道传输的最大可能传输率,无论信道是否存在噪声。这个最大传输率就是信道容量(channel capacity)。
香农的信息定义中有一个发送者向接收者发送信息。例如图3.7有两个发送者通过电话与接收者交谈的例子。发送者说的每个词都是香农意义上的信息。电话并不理解所说的词,而只是传送编码声音的电脉冲,香农对信息的定义也完全忽略信息的意义,而只考虑发送者向接收者发送信息的速度。
香农问:“发送者传送了多少信息给接收者呢?”与玻尔兹曼的思想类似,香农将宏观状态(这里是发送者)的信息定义为可以由发送者发送的可能微观状态(可能信息的集合)的数量的函数。我的儿子尼可还在瞒跚学步时,我会让他通过电话同奶奶讲话。他喜欢讲电话,不过只会说一个字——“da”。他发给奶奶的信息是“da da da da da……”换句话说,尼可的宏观状态只有一种可能的微观状态(“da”序列),因此虽然这个宏观状态很有趣,信息量却为零。奶奶知道听到的会是什么。我的儿子杰克两岁了,他也喜欢讲电话,不过他的词汇量大些,因此会告诉奶奶他干的事情,经常让奶奶对他讲的话吃惊。显然发送者杰克的信息量要多得多,因为可能的微观状态——即各种不同的信息组成的集合——要多得多。
香农对信息量的定义与玻尔兹曼对熵更一般化的定义几乎一样。在1948年的经典文章中,香农用信息源的熵定义信息量(这个熵的概念通常被称为香农熵,以区别于玻尔兹曼给出的熵的定义)。
19世纪时,数学和科学被认为无所不能。希尔伯特和他的追随者认为他们即将实现莱布尼茨的梦想:发现自动判定命题的方法,并证明数学无所不能。类似的,在第2章我们看到,拉普拉斯相信,根据牛顿定律,科学家原则上能预测宇宙将发生的一切。
然而,20世纪早期在数学和物理上的发现表明,这个无所不能实际上并不存在。量子力学和混沌摧垮了精确预测的希望,哥德尔和图灵的结果则摧垮了数学和计算无所不能的希望。然而,图灵对停机问题的解决却为另一个伟大发现——可编程电子计算机——开辟了舞台,计算机后来给科学研究以及我们的生活带来了翻天覆地的变化。
在20世纪30年代发表他们的成果之后,图灵和哥德尔的命运迥异,同当时许多人一样,在希特勒和第三帝国出现后,他们的命运被彻底改变了。哥德尔受到时断时续的精神问题困扰,他在维也纳一直待到1940年,最后为了不被征入德军服兵役,移民到美国。(据他的传记作者王浩说,在准备美国入籍面试时,他发现了美国宪法中的不一致性,结果他的朋友爱因斯坦在陪他去面试时只好不断同他聊天,以引开他的注意力。)
哥德尔和爱因斯坦一样,加入了声名卓著的普林斯顿高等研究院,并继续在数理逻辑领域作出重要贡献。然而,在20世纪60-70年代,他的精神状况不断恶化。去世前,他得了严重的妄想症,认为有人要毒害他。他拒绝进食,最终死于饥饿。
图灵也访问了高等研究院并得到了职位,但他决定回到英国。在第二次世界大战中,他加入了英国绝密的破解德军谜团密码(Enigma)的计划。以他的逻辑和统计学专长,再加上在电子计算上的成就,图灵领导研发了破译机器,最终几乎破解了所有使用谜团密码的情报。这使得英国在同德国作战时具有很大优势,并成为最终战胜纳粹的重要因素。
战后,图灵在曼彻斯特大学参与研制了第一批可编程电子计算机(基于通用图灵机的思想)。此后他的兴趣又回到探索大脑和身体的“计算”原理,他研究了神经学和生理学,并在发育生物学理论上做了有影响的工作,还探讨了智能计算机的可能性。然而他的生活与当时的社会道德习惯相抵触:他没有隐瞒自己的同性恋倾向。在20世纪50年代的英国同性恋是非法的,图灵因为与男性发生关系而被逮捕,并被判决接受药物“治疗”以改变他的“状况”。他也被取消了接触政府机密的权力。这些事件最终导致他在1954年自杀。有意思的是,哥德尔是因为怕被下毒把自己饿死,图灵则是吃了有氰化物的苹果把自己毒死。图灵死的时候年仅41岁。
1831年,在选择自己未来职业的时候(选择似乎包括乡村医生和乡村牧师),达尔文得到一个工作机会,在小猎犬号测绘船(H.M.S.Beagle)上担任“博物学家”和“陪船长吃饭”。船长是一位“绅士”,旅途觉得寂寞,又不想和阶层低下的船员一起吃饭,就想找个绅士陪他吃饭。结果找到了达尔文。
达尔文在小猎犬号上待了将近5年(1831-1836),大部分时候在南非,除了陪船长吃饭,他还收集了许多植物、动物和化石标本,并且不断阅读、思考、写作。幸运的是他写了很多信,还保存了很多笔记,里面有很多观察、思考和阅读笔记。此后一生中他一直详细记录自己的思想。达尔文如果活到现在,肯定会热衷于写博客。
在随小猎犬号航行期间和之后,达尔文从多个学科的书籍和文章中汲取了大量思想。他信奉莱尔(Charles Lyell)的《地质学原理》(Principles of Geology,1830),认为各种地貌(山脉、峡谷和岩石的形成)是受风力、水流、火山爆发、地震等因素不断侵蚀而成,而不是圣经中所说的诺亚洪水这样的灾难造成的。这种渐进主义观点——微小因素日积月累也会有很大的影响——不容于当时的原教旨主义者,但是莱尔的证据让达尔文很信服,特别是航海经历让他看到了各种地质作用。
马尔萨斯(Thomas Malthus)的《人口学原理》(Essay on the Principle ofPopulation,1798)让达尔文意识到群体数量的增长会导致对食物等资源的竞争。马尔萨斯论述的是人类数量的增长,达尔文却吸收其思想用来解释所有生物不断“为生存而斗争”,从而导致进化。
达尔文还读了亚当·斯密的自由市场圣经——《国富论》(The Wealth ofNations,1776)。他通过这本书了解了斯密的经济的看不见的手的思想,大量个体只关心自己的私利,却使得整个社会的利益最大化。
另外,留下来的笔记还表明,达尔文当时已经意识到自己的理论对于人类地位的哲学意义。他写道:“柏拉图……在《斐多篇》(Phaed)中说我们‘与生俱来的思想’不可能来自经验,而是来自前世——但前世可能是猴子。”
竞争不仅是进化的中心要素,也是科学研究本身的主要动力。达尔文对发表成果的犹豫很快就消失了,因为他发现他可能会被抢先。1858年,达尔文收到了英国另一位自然学家华莱士(Alfred Russell Wallace)的手稿,《论变种无限地偏离原始类型的倾向》(On the Tendency of Varieties to Depart Indefinitelyfrom the Original Type)。达尔文惊奇地发现华莱士也独立得出了自然选择导致进化的思想。达尔文在给莱尔的信中表达了自己的担心:“我的所有成果,不管意义有多大,也许都得不到承认。”然而,他还是慷慨地帮助华莱士发表了他的论文,只是要求自己的成果也能同时发表,虽然他担心这个要求“有些可鄙”。
莱尔也认为,达尔文和华莱士应当同时发表他们的成果,以解决优先权问题。这个合作成果于1858年夏在林奈学会(Linnean Society)宣读。1859年底,达尔文出版了400多页的《物种起源》。
但优先权问题还是没有彻底解决。达尔文不知道,早在《起源》出版之前28年,一位不为人知的苏格兰人马修(Patrick Matthew)出版了一本标题和内容都很晦涩的书,《论海军木材和树木栽培》(On Naval Timber and Arboriculture),书的附录中他提出了与达尔文的自然选择非常类似的思想。1860年,马修在杂志《加蒂纳记事》(Gardiner's Chronicle)上看到了达尔文的思想,就给杂志写了一封信申明他有优先权。达尔文心里也非常不安,他在信中回应道:“我完全承认马修先生多年前就提出了我对于物种起源提出的自然选择解释……我只能向马修先生道歉,因为我完全不知道他的著作。”
那么自然选择的思想到底该归功于谁呢?显然,这又是一个同时独立发现的例子,一旦思想的时机成熟,就必然会有人想到。达尔文的同行赫胥黎(Thomas Huxley)就曾责骂自己:“真蠢,我怎么没有想到!”
碱基的配对特性,A配T,C配G,也是DNA复制的关键。在有丝分裂开始时,酶会将DNA的双螺旋解开。然后其他酶会读取两条DNA上的核苷酸,并将新的核苷酸附到上面(在细胞中新的核苷酸会不断被制造出来),A连到T,C连到G。这样,DNA就被复制成了两个新的DNA双螺旋,每个新细胞都得到一份完整的DNA拷贝。细胞中有许多机制保证复制正常进行,但是偶尔也会发生错误(碱基配对错误,大约1000亿个核苷酸产生一次),从而导致变异。
冯·诺依曼最初的自复制自动机(冯·诺依曼只给出了数学描述,并没有真的建造)也是既包含有自我复制的程序也包含解释自身程序的机制。因此是完整的自我复制机器。这也解释了为何冯·诺依曼的构想要比我的自我复制程序复杂得多。冯·诺依曼提出构想是在20世纪50年代,当时生物自我复制的机制还没有被完全理解,这更加表明了冯·诺依曼天才的洞察力。冯·诺依曼对自动机的设计以及其正确性的数学证明在他去世前已基本完成。1957年,他因癌症去世,年仅53岁,可能是因为在参与研制原子弹时受到了核辐射。冯·诺依曼的同事巴克斯(Arthur Burks)完成了最后的证明。1966年,巴克斯将全部成果编辑成为《自复制自动机理论》(Theory of Self-Reproducing Automata)~-书出版。冯·诺依曼设计的自复制自动机是人工生命科学真正的先驱之一,从原则上证明了自我复制的机器的确是可能的,并且提供了自我复制的“逻辑”,后来证明其与生物的自我复制机制惊人的相似。
冯·诺依曼认识到这个结论具有深远的影响。他担心公众对这种自复制机器的反应,不愿看到大众媒介报道“未来这种自复制机器的可能性”。可惜好景不长。1999年,计算机科学家库兹韦尔(Ray Kurzweil)和莫拉韦茨(Hans Moravec)在《灵魂机器的时代》(The Age of Spiritual Machines)和《机器人》(Robot)这两本书中鼓吹了这种具有超级智能并且能自我复制的机器人的可能性,他们认为这种机器人在不远的将来就会被制造出来,他们的书并非虚构,但是相当牵强。2000年,Sun公司的创始人之一乔伊(BillJoy)在《连线》(Wired)杂志上发表了一篇后来很有名的文章——《为何未来不需要我们》,文中描述了自复制纳米机器的可能性。目前这些预言都还没有应验。不过复杂的自复制机器也许很快就会成为现实:康奈尔大学的机器人专家利普森(Hod Lipson)和他的同事已经制造出了一些简单的自复制机器人。
除了冯·诺依曼,匈牙利还有一批年龄相仿的科学家后来都成了举世闻名的学者,这被称为“匈牙利现象”。这个群体中包括西拉德,第3章我们已经见过他,物理学家维格纳(Eugene Wigner)、特勒(Edward Teller)和伽柏,数学家厄多斯(Paul Edos)、科蒙尼(John Kemeny)和拉克斯(Peter Lax)。许多人都奇怪为何当时会聚集这么多耀眼的天才。据冯·诺依曼的传记作者麦克雷(Norman MacRae)说,“匈牙利6位诺贝尔奖获得者有5位是生于1875年到1905年间的犹太人,有一次诺贝尔奖得主维格纳被问到,为何在他那一代匈牙利涌现了这么多天才,结果他回答说,他不明白这个问题,匈牙利当时只出现过一位天才,那就是冯·诺依曼。”
第1代有200个随机生成的策略,可以想象它们都很糟糕。最好的策略适应度才-81,最糟糕的到了-825。(可能这么低吗?)
我用几个任务测试了一下罗比采用这一代中最糟糕的策略时的行为。在一些环境设定中,罗比移动了几步就卡住了,之后在整个任务过程中都停止不动。在一些情况下,则不停地撞墙,直到任务结束。有时候则一直不断地去捡罐子,虽然当前位置上没有罐子。显然这些策略在进化过程中很快就会被淘汰掉。
我也测试了一下这一代中最好的策略,还是很糟糕,比最差的好不了多少。不过比起来它还是有两个优点:不那么容易一直撞墙了,而且偶尔碰到罐子的时候还能把罐子捡起来!作为这一代中最好的策略,它有很大的机会被选中用来繁殖!一旦被选中,它的子代就会继承这些优点(同时也会继承许多缺点)。
到第10代,群体中最佳策略的适应度已经变成正数了。这个策略经常会停滞不动,有时候还会在两个格子之间不停地来回移动。但基本不怎么撞墙,同第1代的前辈一样,偶尔也会捡罐子。
GA就这样不断改进最佳适应度。到200代时,最好的策略已经具有向罐子移动并捡起罐子这个最重要的能力—至少大部分时候是这样。不过,如果周围没有罐子,它也会浪费很多时间用来随机游走,这一点同M相似。到250代时,做得已经和M一样好了;等到了400代,适应度超过了400分,这时的策略如果少做一些随机移动,就能和G一样好。到800代时,GA发现了将罐子留作相邻罐子的路标的技巧,到900代时,沿着围墙转的技巧就基本完善了,到1000代时会进一步做些修正。
虽然罗比机器人的例子相当简单,但它与实际应用的GA区别已不是很大。同罗比的例子一样,在实际应用中,GA经常能演化出有用的答案,但是很难看出为什么会有用。这是因为GA找到的好答案与人类想出的相当不同。美国国家航空航天局(NASA)的遗传算法专家罗恩(Jason Lohn)曾这样说:“进化算法是探索设计死角的伟大工具。你向具有25年工业经验的专家展示(你的设计),他们会说‘哦,这个真的能工作?’……我们经常发现进化出来的设计完全无法理解。”
罗恩的设计也许是无法理解,但的确能工作。2004年,罗恩和他的同事因为用GA设计出了新的NASA航天器天线被授予“人类竞争”奖(Human Competitive Award),这表明GA的设计改进了人类工程师的设计。
1998年,库克在圣塔菲研究所的一次会议上作报告,我第一次知道了他的结果。我当时的反应同我的大多数同事差不多,“太酷了!太巧妙了!不过没有什么实际或科学意义。”
和生命游戏一样,规则110也是极为简单的确定性系统产生出无法预测的复杂行为的例子。但在实际中很难设置一个初始状态来产生出所希望的复杂计算。而且规则110会比生命游戏更慢。
沃尔夫勒姆对这个结果的看法完全不同。在2002年出版的《一种新科学》(A New Kind of Science)中,沃尔夫勒姆将规则110的通用性视为“新的自然定律”——他提出的计算等价性原理(Principle of Computational Equivalence)——的有力证据。沃尔夫勒姆提出的这个原理包括4部分:
- 思考自然界中的过程的正确方法是将它们视为计算。
- 像规则110这样极为简单的规则(或“程序”)都能进行通用计算,这表明通用计算的能力在自然界中广泛存在。
- 通用计算是自然界中计算的复杂性的上限。也就是说,自然系统或过程不可能产生出“不可计算”的行为。
- 自然界中各种过程实现的计算在复杂程度上都几乎等价。
明白了没有?我必须承认,很难解释清楚这个原理的意思,沃尔夫勒姆这本1200页的鸿篇巨著,一个主要目的就是阐释这个原理,并说明它如何适用于各个科学领域。我通读了这本书,但还是没有完全明白沃尔夫勒姆的意思。不过我还是尽力解释一下。
沃尔夫勒姆说的“自然界中的过程就是计算”指的是某种东西。在任意给定时刻,元胞自动机都在通过将其规则应用于其当前状态来处理信息。沃尔夫勒姆认为,自然系统正是以这样的方式运作——它们包含信息,并根据简单规则处理这些信息。在《一种新科学》中,沃尔夫勒姆探讨了量子力学、进化和发育生物学、经济等领域,他想说明这些领域都能描述为使用简单规则进行的计算。本质上,他的“新科学”指的是这样的思想,宇宙和其中的万事万物都能用这种简单的程序进行解释。这就是大写的计算,非常大。
有一天,我对8岁的儿子杰克说:“杰克,把袜子穿上。”他把袜子顶到头上,“你看,我把袜子穿上了!”他觉得很好玩。而我则意识到他的搞怪行为说明了人类和计算机之间一个很大的区别。
“把袜子穿到头上”的玩笑之所以好笑(至少对8岁的孩子来说是这样),是因为它违反了我们都知道的常识:人类的大部分言辞原则上讲都有些模棱两可,但是当你和别人说话时,他们还是知道你的意思。如果我对我丈夫说:“亲爱的,你知道我的钥匙在哪里吗?”如果他仅仅回答说:“知道”,我会很恼火——显然我的意思是“告诉我,我的钥匙在哪里”。当我最好的朋友说她感到在工作中寸步难行时,我回应说“心有同感”,她会知道我的意思不是说我觉得她的工作寸步难行,而是说我自己的工作。这种相互理解就是所谓的“常识”,说得更正式点是“对上下文敏感”。
20世纪80年代初,我大学刚刚毕业,还不是很明确今后该做些什么,我到纽约的一所中学当数学老师。这份工作的薪水很低,而纽约物价昂贵,因此我削减了不必要的开支。但我还是买了一本新出的书,作者是印第安纳大学(Indiana University)的一位计算机系教授,题目有点奇怪,《哥德尔、艾舍尔、巴赫——集异璧之大成》。因为我的专业是数学,又参观过许多博物馆,所以知道哥德尔和艾舍尔是谁,而且我也喜欢古典音乐,所以对巴赫也很熟悉。但是将他们的名字放到一起作为书的标题就让我搞不懂了,这勾起了我的好奇心。
没想到侯世达的书改变了我的一生。从题目看不出来,书的内容是思维和意识是如何从大量简单神经元的分散行为中涌现出来的,这类似于细胞、蚁群和免疫系统的涌现行为。这本书让我第一次了解了复杂系统的一些主要思想。
侯世达想用类似的原理建造有智能和“自我意识”的计算机程序。这很快也成了让我充满激情的目标,我决定去跟侯世达研究人工智能。
问题是,我只是一个刚刚大学毕业的无名小卒,而侯世达则是获得了普利策奖(Pulitzer Prize)和美国国家图书奖(National Book Award)的著名畅销书作家。我给他写了一封信,说我想跟他读研究生。但是我没有收到回信(后来才知道他没有收到那封信),因此我只好等待时机,并且学了一些AI的知识。
一年后我搬到了波士顿,换了工作,并学习了计算机课程,为我将来的事业做准备。有一天我碰巧看到侯世达将要到麻省理工学院(MIT)演讲的海报。这真让人兴奋,我立刻决定前往,挤进了狂热的书迷中(不仅仅只有我被侯世达的书改变了),希望能和他近距离接触。我终于挤到了前面,握到了侯世达的手,还告诉他我想参与他的AI研究,希望能申请印第安纳大学。他告诉我他实际上就住在波士顿,这一年他在MIT人工智能实验室访问。当时因为后面还有很多书迷在等着,侯世达就让我去旁边和他以前的一个学生详谈,转而接待其他读者。
我很失望,但是并没有放弃。我设法找到了侯世达在MIT人工智能实验室的电话号码,并且拨了几次。每次都是秘书接的电话,她告诉我侯世达不在,让我有事可以留口信。我留了口信,但是没有收到答复。
此后有一天晚上,我躺在床上琢磨该怎么办。我突然想到,我打电话的时候都是在白天,他都不在那里。既然侯世达白天总是不在,那他什么时候会在呢?肯定是在晚上!当时已是晚上11点,不过我还是起来拨了那个熟悉的号码。接电话的正是侯世达。
他很友好,和蔼可亲。我们谈了一会儿,他邀请我第二天去他的办公室谈,看我能在他的研究小组里做些什么。我如约而至,然后我们谈论了侯世达当时正在研究的课题——写一个能进行类比的计算机程序。
有时候要想有所收获,得有点斗牛犬的精神。
侯世达有一个天赋,他能将复杂的问题简化,然而又留住问题的精髓。在研究类比问题时,侯世达创造一个微型世界,这个世界虽然是微型的,却保留了问题大部分有趣的方面。微观世界中包含在字母符号串之间进行的类比。
举个例子,思考下面的问题:如果abc变成abd,ijk应该变成什么呢?大部分人会将变化描述为“将最右边的字母用其后继字母替换,”因此答案是ijl。但其他答案也有可能,比如说:
ijd(“将最右边的字母用d替换”——就好像杰克将袜子“穿上”)
ijk(“将c用d替换;在ijk中没有c”)
abd(“不管什么字母串’都用abd替换”)
显然有无穷多种可能的答案,虽然可能性要小些,比如(“将c用d替换,将k用两个x替换”),但几乎所有人都认为ijl是最佳答案。不过这毕竟是个没有实际意义的抽象问题,因此如果你真觉得ijd好些,我也没法让你相信ijl更好。但是人类似乎进化出了在现实世界中进行类比的能力,以便更好的生存和繁衍,而他们的类比能力似乎也能应用于抽象领域。这意味着几乎所有人都会从内心同意有一个特定的抽象层次是“最合适的”,因而得出答案ijl。那些从内心会相信ijd是更好答案的人可能在进化过程中已经被淘汰了,这解释了为什么现在这样认为的人寥寥无几。
在科学中,模型是对某种“实在”现象的简化表示。科学家们说是在研究自然,但实际上他们做的大部分事情都是在对自然进行建模,并对所建立的模型进行研究。
以牛顿的引力定律为例:两个物体之间的引力正比于它们质量的乘积。这是对一种特定现象的数学描述——也就是数学模型。还有一种模型是用较为简单的概念来描述现象实际是如何运作的,也就是所谓的原理。在牛顿的时代,他的引力定律受到质疑,就是因为他没有解释引力的原理。也就是说,他没有用“大小、形状和运动”等物理对象的属性对其进行解释——根据笛卡儿的思想,这些基本要素是所有物理模型必要而且充分的组成部分。牛顿自己推测过引力的可能原理,例如,他“猜想地球就像海绵一样,不断吸收天空降落下来的轻质流体,这种流体作用到地球上的物体上,导致它们下降”。这种概念框架可以称为原理模型。200年后,爱因斯坦提出了一种不同的引力原理模型,广义相对论,在其中引力被概念化为四维时空的几何特性。现在,一些物理学家又在鼓吹弦论,提出引力是由细小、振动的弦导致的。
模型是我们思维的方式,是用我们熟悉的概念解释观察到的现象,所用到的概念是我们的头脑能够理解的(就弦论来说,则是少数非常聪明的人能够理解的)。模型也是预测未来的途径:比如说,牛顿的引力定律仍然被用来预测行星轨道,而爱因斯坦的广义相对论则成功预测了那些所预测的轨道的偏差。
许多生物学家和社会学家都用理想模型来研究为什么在由自私个体组成的群体中会进化出合作。
生物归根结底都是自私的——它们要想在进化中获得成功,就必须能活足够长的时间,保持足够的健康,还要能吸引异性,以繁衍后代。大部分生物为了达到这些目的会毫不犹豫地与其他生物进行斗争,采用各种伎俩,杀死或杀伤其他生物。通常的看法认为进化选择会使得自私或自卫本能得以传递给下一代并在种群中扩散。
然而与这种看法相反,在生物王国和社会的各个层面上都有许多明显不符合自私原则的例子。从底层看,在进化历程的一定阶段时刻,单细胞生物会互相合作以形成更复杂的多细胞生物。后来,又进化出了蚁群这样的社会性生物,大部分蚂蚁为了蚁群的整体利益工作,甚至放弃了繁衍的能力,只让蚁后来繁衍后代。后来,灵长类动物群体中又涌现出了更加复杂的社会,社会团结一致对外,复杂的贸易,最终出现了人类国家、政府、法律和国际条约。
生物学家、社会学家、经济学家和政治学家都面临着类似的问题,本质上自私的个体中是怎么产生出合作的。这不仅仅是个科学问题,也是政治问题:例如,是否有可能创造条件让国家之间产生并维持合作,一起应对核扩散、艾滋病、全球变暖等国际问题?
阿克塞尔罗德想知道什么样的策略是好策略,因此他组织了两次囚徒困境竞赛。他让各学科的研究人员提出各自的策略,并根据策略设计能进行囚徒困境博弈的计算机程序,然后在比赛中让这些程序互相博弈。
回想一下第9章讨论的机器人罗比,策略指的其实就是一组规则,规定了在各种情形中应该采取何种行动。对于囚徒困境来说,策略就是根据对手以前的行为决定下一步是合作还是背叛的规则。
第一次竞赛收到了14个程序;第二次增加到了63个。每个程序都相互博弈200个回合,根据表14.1中的收益矩阵计算总分。程序可以有记忆——每个程序都能存储一些之前与对手的博弈记录。有些提交来的策略相当复杂,使用统计方法分析其他策略的“心理”。然而,两次竞赛中获胜的策略—平均得分最高—都是所提交的策略中最简单的策略:针锋相对(TIT FOR TAT)。这个策略是数学家拉普波特(Anatol Rapoport)提交的,第一个回合合作,然后在后面的回合中采取对手在前一回合中所使用的策略。也就是说针锋相对策略愿意合作,并且对愿意合作的对手以礼相待。但如果对方背叛,针锋相对策略就会回之以背叛,直到对手又开始合作为止。
让人吃惊的是,这样简单的策略竟然打败了其他所有策略,尤其是第2次竞赛时参赛者已经知道了针锋相对策略,可以有针对性地与它对抗。然而,在参赛的几十位专家中,没有人能设计出更好的策略。
根据竞赛结果,阿克塞尔罗德得出了一些一般性结论。他注意到所有成绩好的策略都有友善的特点—他们从不先背叛对方。友善的策略中得分最低的是“绝不宽恕”策略:它开始时合作,但一旦对方背叛,它以后就会一直背叛。而针锋相对策略会以一次背叛惩罚对手的上一次背叛,但如果对手又开始合作,它就会原谅对方,也开始合作。阿克塞尔罗德还注意到,虽然大多数成功的策略既友善也能宽恕对手,但是它们也具有报复性——它们会在背叛发生后很快就进行惩罚。针锋相对策略不仅友善、宽恕和进行报复,它还有一个很重要的特性:行为明确,具有可预见性。对手很容易就能知道针锋相对采取的策略,因此也就能预知它会如何对对手的行为作出反应。这种可预见性对于促进合作很重要。
有趣的是,阿克塞尔罗德在竞赛之后又进行了一系列实验,用遗传算法演化囚徒困境的策略。策略的适应度就是它与种群中其他策略反复博弈之后的得分。遗传算法演化出的策略行为与针锋相对也是一样的。
阿克塞尔罗德进行了添加社会规范的囚徒困境实验,实验中规范表现为在背叛被其他人发现时的社会谴责(用负分表示)。在阿克塞尔罗德的多方博弈中,个体的每次背叛,都有一定的概率被其他个体发现。除了决定合作或背叛的策略,每个个体还有在发现其他个体的背叛行为时决定是否进行惩罚(减分)的策略。
具体说,每个个体的策略由两个数字组成:背叛的概率(无耻度)和发现背叛行为时进行惩罚的概率(正义度)。在最初的群体中,概率值被随机赋予。
在每一代,群体进行一次循环博弈:群体中每个个体与其他所有个体博弈一次,每当出现背叛,背叛行为都有一定概率被其他个体发现。一旦被发现,发现背叛行为的个体就会根据自身的正义度以一定概率对背叛个体进行惩罚。
在每次循环之后,会发生进化过程:根据适应度(得分)选择父代策略,从而产生出下一代策略。父代通过变异复制产生后代:每个后代的无耻度和嫉恶度在父代的基础上稍微变化。如果开始时群体中大多数个体的正义度都设为0(也就是没有社会规范),那背叛者就会越来越多。阿克塞尔罗德最初希望能发现促进群体中合作进化的规范——也就是说,进化出正义度以对抗无耻度。
然而,结果是仅仅有规范并不足以保证产生合作。在后来的实验中,阿克塞尔罗德又加入了元规范(metanorms),在其中有执法者来惩罚非执法者。不知道你们明不明白我的意思,就好像逛超市的时候,如果我没有阻止我的小孩在过道里嬉闹,还撞到了其他顾客,有些这样的人就会以鄙视的眼神看着我。这样的元规范对我很有效。阿克塞尔罗德也发现元规范很有用—如果周围有惩罚者,非惩罚者就会演化得更倾向于惩罚,而被惩罚的背叛者也会演化得更愿意合作。用阿克塞尔罗德的话说,“元规范能促进并保持群体中的合作。
1995年,胡伯尔曼(Bemardo Huberman)和格兰斯(Natalie Glance)重复了诺瓦克和梅的空间囚徒困境模型。他们的仿真只有一处改动。在原来的模型中,每一步格子上所有策略的博弈都同时进行,然后再在邻居中选择适应度最高的策略。(诺瓦克和梅必须在非并行计算机上模拟这种并行性。)胡伯尔曼和格兰斯则让一些博弈可以异步进行——也就是说,一些策略先进行博弈并选择,然后另一些策略再接着做,这样轮着来。这样简单的变化,应该说是让模型更符合实际了,他们却发现结果经常是整个网格中合作者完全被不合作者取代。穆科吉(Arijit Mukheji)、拉詹(Vijay Rajan)和斯莱格勒(James Slagle)也独立得到了类似的结果。他们还发现,只要存在一点失误或是欺骗(例如,合作者无意或是有意地背叛),合作就无法继续。诺瓦克、梅和他们的合作者博恩霍艾弗(Sebastian Bonhoeffor)则回应说,这样的改变只有在收益矩阵取一定的值时才会导致合作者消失,而在其他情况下则不会,至少在很长的时间内都不会消失。
2005年,加兰(Jose Manuel Galan)和利兹壝奎尔多(Luis Izquiedo)发表了他们重复阿克塞尔罗德的规范和元规范模型实验的结果。在阿克塞尔罗德的实验后已经过去了20年,计算机的性能已得到大幅提升,他们可以让仿真运行更多的周期,也可以彻底研究如果改变收益矩阵、变异概率等条件会导致什么结果。他们的结果与阿克塞尔罗德的一些结果相吻合,但也有一些结果相当不同。例如,他们发现虽然元规范在短期内会促进和维持合作,但如果仿真很长时间,不合作者最终还是会占据优势。他们还发现结果对收益矩阵等条件相当敏感。
我们应当怎样理解这一切呢?我认为就像伯克斯和德雷珀说的:所有模型都是错的,但是有一些对于尝试研究极为复杂的系统却很有用。独立的重复实验能够发现理想模型中隐藏的一些不切实际的假设和对某些参数的敏感性。当然重复实验本身也应当被重复检验,就像实验科学一样。最后,建模者也必须明确指出模型的局限性,以免模型的结果被误读,生搬硬套,或是过分渲染。我用囚徒困境的模型作为例子来说明这些观点,其他复杂系统的简化模型同样应当注意这些。
我住在俄勒冈州波特兰,这个市区大约有200万人。我在波特兰州立大学(Portland State University,PSU)任教,学校有将近25000名学生,超过1200名教师。几年前,我们家换了新房子,离学校较远。有一次我同我们的新邻居桃乐茜聊天,她是位律师。我告诉她我在波特兰州立大学教书。她说:“不知道你认不认识我父亲。他叫乔治·勒恩达理斯(George Lendaris)。”我很吃惊。勒恩达理斯是我在PSU的同事,整个学校只有三四个老师研究人工智能,其中就包括我们俩。就在前天,我还和他见了面,讨论合作申请经费。这世界真小!
几乎所有人都有过这种“小世界”经历,很多比我遇到的更具戏剧性。我丈夫高中最好的朋友和我在人工智能课上采用的课本的作者是堂兄弟。在圣塔菲住在离我三栋房子里的一位女士是我在洛杉肌的高中英语老师的好友。我相信你也有过类似的经历。
这种出人意料的关系到底有多常见呢?20世纪50年代,哈佛大学的心理学家米尔格兰姆(Stanley Milgram,图15.1)对这个问题产生了兴趣,他想弄清在美国一个人平均要通过几个熟人关系才能到达另一个人。他设计了一个实验,实验中一些普通人被要求将一封信寄给一位陌生人,他可以将信交给他认为最有可能将信送达的熟人,熟人又转交给熟人的熟人,直到信通过熟人关系形成的链条送到收信人手中。
米尔格兰姆在报纸上刊登广告,在堪萨斯州和内布拉斯加州招募了一群“发信人”,告诉他们“收信人”的姓名、职位和所在城市,发信人要把信送给他不认识的这位收信人。米尔格兰姆选择的收信人中,有一个例子是波士顿的一位股票经纪人,还有一个例子是坎布里奇(Cambridge)附近一位神学学生的妻子。发信人被要求将信送给他认识的某位熟人,再请这位熟人继续传送。传送过程被记录在信上,如果信送到了收信人手里,米尔格兰姆就计算信经过了几个熟人关系。米尔格兰姆记述了一个例子:
在信封被交给堪萨斯州一位发信人4天后,圣公会神学院的一位教师在街上拦住了我们的收信人。他将一个牛皮信封塞给她,“爱丽丝,这是你的。”一开始她以为这是一封没有送到发信人手里被退回来的信,从没有离开过坎布里奇,但是当我们看上面的记录时,我们惊喜地发现信是堪萨斯州的一位农夫寄来的。他将信交给了他们当地圣公会的牧师,这位牧师又将信寄给了在坎布里奇任教的这位牧师,这位牧师再将信交给了收信人。这样从发信人经过两个熟人关系就到了收信人!
在这项著名的实验中,米尔格兰姆发现,在送达的信件中,从发信人平均经过5个熟人就送到了收信人。这个发现后来广为人知,被称为“六度分隔(six degrees of separation)”。
后来心理学家柯兰菲尔德(Judith Kleinfeld)研究发现,米尔格兰姆的发现被曲解了——事实上,大部分信件从没有到达收信人手中,而在米尔格兰姆的其他研究中,到达收信人的信件经过的平均熟人关系也不止5个。然而,六度分隔的小世界思想还是成了我们文化的传奇。正如柯兰菲尔德指出的)
科技文献引用网络的增长是偏好附连效应的一个例子。在这个网络中节点是科技文献;一篇论文如果被另一篇论文引用,就得到一条入连接。因此论文被引用的次数越多,连接度就越高。人们一般认为被引用次数越多,论文就越重要;在科学界,这个指标会决定你的职位、加薪,等等。不过,偏好附连似乎经常在其中扮演重要角色。设想你和科学家乔各自独立地就同一个问题写了很出色的论文。如果我在我的论文中碰巧引用了你的文章,却没有引用乔的,其他人如果只读了我的文章就很有可能会引用你的文章(经常是读都没读)。其他人如果读到了他们的文章,也会更有可能引用你的而不是乔的文章。局势会越来越有利于你,不利于乔,尽管乔的论文和你的论文质量一样好。偏好附连机制会导致作家格拉德威尔(Malcolm Gladwell)所说的引爆点(tipping points)——论文引用、时尚流行等过程通过正反馈循环开始剧烈增长的点。另外,引爆点也可以指系统中的某处失效引发系统全面加速溃败,后面我们将讨论这种情况。
连锁失效的例子在现实网络世界中很常见。下面是新闻里最近报道的两个例子:
2003年8月:美国中西部和东北部发生大规模断电,是由俄亥俄州一家发电厂发生故障引发的连锁失效导致的。据报道,由于天气过于炎热,导致电线负荷过高,引起线路下垂,碰到了树枝,触发了线路自动断路,负载被转移到电网其他部分,使得其他部分也因过载而失效。过载失效迅速传播,最后导致加拿大和美国东部5千万居民断电,有些地区断电长达3天。
2007年8月:美国海关计算机系统崩溃了近10个小时,导致17000多名旅客滞留在洛杉肌国际机场。事故是由一台计算机的网卡故障引起的。这个故障很快导致其他网卡也连锁失效,不到1个小时,整个系统都崩溃了。海关职员无法处理到达的国际旅客,其中一些人不得不在飞机上等了5个多小时。
第3个例子表明不仅电力网络会发生连锁失效,公司网络也一样。
1998年8-9月:私人金融对冲基金美国长期资本管理公司(Long-TermCapital Management,LTCM)得到数家大型金融公司担保从事风险投资,结果将公司的权益价值几乎赔光。美联储担心它的亏损会导致全球金融市场崩溃,因为为了偿债,LTCM会不得不卖掉大部分资产,导致股票等有价证券的价格下跌,从而迫使其他公司也抛售资产,导致价格进一步下跌,直至崩溃。1998年9月末,为了防止出现这种局面,美联储召集了其主要债权银行对LTCM进行援助。
前面我们说到,在节点随机失效时,对网络的平均最短路径长度不会有很大影响。这种特性在连锁失效的情况下并不成立,因为一个节点的失效会导致其他节点也失效。连锁失效是“引爆点”的又一个例子,小事件触发加速正反馈,结果小问题导致严重后果。许多人担心黑客和电脑恐怖分子威胁全球网络基础,但连锁失效带来的威胁可能更大。随着我们的社会越来越依赖计算机网络、网络投票机、导弹防御系统、电子银行,等等,连锁失效的情况也越来越常见,威胁也越来越大。正如研究这种系统的专家安东诺普洛斯(Andreas Antonopoulos)指出的,“威胁来自复杂性本身”。
因此!对连锁失效及其应对策略的总体研究现在是网络科学最活跃的研究领域。两个影响最大的理论分别是自组织临界性(Self-Organized Criticality,SOC)和高容错性(Highly Optimized Tolerance,HOT)。SOC和HOT理论也提出了不同于偏好附连的机制解释无尺度网络的产生。这两个理论各自提出了一组进化和工程系统连锁失效的普适机制。
进化发育生物学的一个惊人例证就是燕雀鸟喙的进化。第5章曾讲过,达尔文发现加拉帕格斯群岛燕雀的喙的大小和形状差别很大。直到不久前,大部分进化生物学家都还认为这种差别是几种基因随机变异逐渐积累的渐变过程。但最近发现了一个名为BMP4的基因可以通过调控生成骨骼的基因来控制喙的大小和形状。鸟在发育过程中BMP4的表达越强烈,喙就越强大。另一种名为钙调素(calmodulin)的基因则被发现与长细形的喙有关。卡罗尔·尹(Carol Kaesuk Yoon)在《纽约时报》上撰文介绍,“为了证明BMP4基因确实能触发生长粗壮、能打开坚果的喙,研究者在小鸡胚胎发育出喙时人为加快了BMP4的产生。结果小鸡长出了宽厚而结实的喙,类似于能啄开坚果的燕雀……像BMP4一样,钙调素基因的表达越强,雀喙就会长得越长。如果在小鸡胚胎中人为增加韩调素,小鸡就会长出变长的喙,就像啄食仙人掌的燕雀……这样科学家就发现,无需几十上百种基因,只需这两种,就有可能让鸟喙变得或是厚重、或是短粗、或是细长。”结论是鸟喙(及其他特征)形态的巨大变化可以很快发生,而无须等待时间漫长的随机变异。
进化发育生物学挑战进化传统观念的另一个例子是趋同进化(convergent evolution)。在中学生物课上我们学过,章鱼眼睛和人类眼睛——形态差异很大——是趋同进化的例子。这两个物种的眼睛是相互独立进化出来的,是自然选择作用于两种不同环境的产物,两种环境中眼睛都具有适应优势。
然而,最近有证据表明,这两种眼睛的进化并不像以前认为的那样独立。人类、章鱼、苍蝇等物种都具有名为PAX6的基因,这种基因能引导眼睛的发育。瑞士生物学家格林(Walter Gehring)做了一个古怪而富有启发的实验,实验中格林将老鼠的PAX6基因取出插入到果蝇的染色体中。在不同实验中,PAX6被插入染色体的三个不同部位:这三个部位分别引导腿、翅膀和触须的发育。结果非常怪异:果蝇的腿、翅膀和触须上长出了类似眼的结构。这种结构像果蝇的眼,而不是老鼠的眼。格林得出结论:眼睛不是多次独立进化出来的,而是只有一次,有一个具有PAX6基因的共同祖先。这个结论在进化生物学家中仍然极具争议。
虽然主导基因引导的基因调控网络能产生多样性,它们也对进化施加了一些限制。进化发育生物学家认为任何生物的身体形态类型都受主导基因高度约束,这也是为什么自然界中只有少数基本的身体结构类型。如果基因组很不相同的话,也许会有新的身体结构类型,但实际上进化无法让我们变成那样,因为我们非常依赖现在的调控基因。我们的进化可能性是有局限的。根据进化发育生物学的观点,“所有特性都能无限变化”的观念是错误的。
网友评论