羽毛儿读《心智的构建》——第四章·纯净版

作者: 渡河的羽毛儿 | 来源:发表于2018-07-16 14:20 被阅读0次

第二部分——脑如何做的

首先我们必须要思考一个哲学问题，我们要怎么知道自己对事物的认识是正确的？

要想确保自己对某个事物的认识是正确的，必须要获得有关它的所有信息，否则我们都无法知晓它是否是一个和旧事物极其相似的新事物。先不说我们能否用有限的精力收集全部的信息，最大的问题是我们无法知道自己是否已经将全部信息都收集到了，除非出现了新的信息证明了我们的遗漏。

人类漫长的历史已经证明了，真理和常识都是可能出错的，即使是严谨的推理得出的结论也可能会因前提的错误而失效，那些曾经被认为真实而正确的知识不过是尚未被证明为伪的错误信念。那么那些我们仍然相信的知识又何如呢？

当我们看到了一个苹果时，我们看到的真的是苹果吗？我们实际想表达的意思是“我看到了一个苹果”还是“我相信我看到了一个苹果”呢？

现在让我们回到认知神经科学的领域，科学已经证明了我们对世界的体验不过是脑构建的幻觉，但生活在幻觉与错觉中的生物并没有灭亡，反而欣欣向荣。那么真实与虚幻、正确与错误各自对生物的生存与繁衍有何价值呢？

第四章：在预测中前行

我们为什么要了解这个世界呢？因为不知道世界上有什么就不知道会遇上什么，更不会知道该如何应对，我们就无法生存。要研究人认识世界的方式就必须知道人体验到了什么，而大多数体验难以找到相应的客观指标，不过“快乐”和“惊恐”等情绪都可以通过独特而明显的脑活动进行证实。所以，如果想要知道脑是如何构建物质世界的，从不如从研究脑是如何构建对生存影响最大的“这能使我快乐”、“这能伤到我”这些价值指标入手吧。我们将会发现，每个人都是热衷于预测未来的统计学家。

4.1学习未来（生物通过增强和削弱事件和赏罚之间的关联性来对未来进行预测，并根据预测决定行为）

人对未知的物质世界的体验和控制大多不需要他人协助，我们很自然地就能学会避开能伤害到我们的事物，接近有助于我们生存的事物，我们是怎么做到的？

我们都知道巴甫洛夫和他的狗。伊凡·彼德罗维奇·巴甫洛夫在每次给狗喂食前都启动节拍器，重复多次后，狗听到节拍器的声音就会流口水。之后，巴甫洛夫启动节拍器却不给狗喂食，重复多次后，狗听到节拍器的声音就不会再流口水。

巴甫洛夫总结出，如果生物多次在接触非条件刺激A（能引发本能反应的刺激）前接触到中性刺激B，那么接触B刺激就会引起对A刺激的反应，即使A刺激尚未发生。此过程被称为联结。而且两个刺激出现的时间间隔越短，联结建立得越快速（非线性关系）；如果间隔过长，就可能无法建立联结。

但如果生物在接触B刺激并做出对A刺激的反应后却没有A刺激，或随即受到另一种刺激，重复数次之后，接触B刺激将不会引起生物对A刺激的反应，此过程被称为消退。（多个联结和消退可以同时发生。）

巴甫洛夫研究条件反射时，爱德华·桑代克正将猫置于迷箱中进行实验，只要猫触发正确的机关，就可以逃出箱子吃到鱼。猫为了逃脱会尝试各种行为，如果猫尝试拉绳导致箱门开启，下次被放进箱子时就会更快地尝试拉绳，最后猫一进入箱子就会拉绳。但如果改变机关让拉绳无效，猫多次尝试无效后会不再拉绳。

桑代克的研究表明：通过不断尝试各种刺激，生物可以学习到各种刺激预示着哪种刺激或不预示任何事。并且，如果生物想要获取或远离某种刺激，生物可以引发相应的条件刺激或避免引发相应的条件刺激。

由此可以得出生物可以通过增强和削弱事件和赏罚之间的关联性来对未来进行预测，并会根据预测决定行为：如果A刺激之后总有B刺激发生，那么遇到A刺激就提前做出反应应对B刺激，如果想要B刺激就主动引发A刺激；反之亦然，这被称作联结学习。

4.2迷信式学习（生物仅以时间上的紧密相关确认一件事会引起另一件事，而两者可能并无因果关系）

但联结学习有一个问题，A刺激和B刺激之间只有时间上的关系，生物不并清除两者之间的因果关系，这可能会导致生物建立无效联结。

伯尔赫斯·斯金纳把鸽子放入斯金纳箱中，只要鸽子作出特定行为，斯金纳箱会自动投喂食物。一段时间后，斯金纳将斯金纳箱设定为无视鸽子行为定时喂食。一段时间后，尽管行为各异，鸽子都会重复做出自己在食物出现前刚好做出的行为，尽管这些行为并不能触发斯金纳箱投喂。斯金纳认为，因为做出某个行为后食物会出现（联结），所以鸽子猜测此行为会引起食物出现，进而试探性地不断重复此行为（消退），而再次定时出现的食物会让它们逐渐确信重复此行为会导致食物出现（联结）。

他指出，人类也是如此变得迷信的。许多现象可以印证这点。更可怕的是联结学习可以在我们意识不到时完成，我们只会意识到联结学习的结果。

例如2.2中的面孔实验的后续实验：实验者在短暂展示一张愤怒面孔后立刻展示一张中性面孔，同时在展示愤怒面孔后制造一声巨响，并将实验重复多次。和之前的实验一样，参与者并不认为看到过愤怒面孔愤怒面孔，认为自己只见到了一张中性面孔，并被巨响吓到了。但参与者看到那张愤怒面孔时却表现出了典型的恐惧反应（如杏仁核活跃、汗液分泌增多等），而不是表现出对愤怒的反应。

斯金纳的研究证明了，生物仅以时间上的紧密相关确认一件事会引起另一件事，而两者可能并无因果关系。

4.3脑是怎样学习的（多巴胺可以让生物产生积极体验，积极体验不是对奖赏的反应，而是在预测奖赏）

之前一直在提到“奖赏”，我们是怎么识别出某个刺激是奖赏呢？

一类名为奖赏细胞的神经细胞会在动物进食或进行性活动（奖赏的两种基本形式）时变得活跃，释放名为多巴胺的神经递质。多巴胺会让人类感到兴奋和愉快。而对老鼠的实验显示，对奖赏细胞的刺激比食物或性更具吸引力。可以看出，奖赏细胞释放的多巴胺，即快乐体验，是脑及心智衡量某种事物对生存繁衍有无价值的直观标准，生物会倾向于采取能造成多巴胺提升的行为。

但有趣的是，多巴胺并不总是在我们获得奖赏时释放的。

在一个实验中，猴子会在闪光出现一秒后得到果汁。一开始，猴子的奖赏细胞会在得到果汁时变得非常活跃，随即停止活跃。而重复多次后，猴子会像巴甫洛夫的狗那样建立联结，看到闪光时奖赏细胞会变得非常活跃，但随即不再十分活跃，一秒后果汁出现时也未有显著变化；如果一秒后果汁没有出现，那么活跃程度会再次降低。

由此观之，奖赏细胞的活跃不是对奖赏的反应，而是在预测奖赏。如果奖赏和奖赏细胞活跃没有直接对应的关系，我们到底是如何学习的？

4.4错误如何成为我们的老师（在联结学习中，奖赏细胞利用释放多巴胺激励生物尝试引发在奖赏出现前发生的各种事件，并在事件没有引发奖赏时降低多巴胺水平以降低生物再次引发该事件的意愿，一段时间后，生物就只愿意引发有较高概率引发奖赏的事件了。）

总的来说，脑的预测并不基于推理，而是基于统计。奖赏细胞会用多巴胺会给事件赋予价值，再通过试错减弱事件的价值。而这种价值本质上是概率的体现，价值高说明事件发生后奖赏出现的概率高，反之亦然。

脑的预测模式如下：

在预料之外的奖赏出现后，奖赏细胞会通过多巴胺将价值赋予正好发生于奖赏出现前的全部事件。

当标注为“有价值”的任何事件再次出现时，奖赏细胞会立即释放多巴胺，这样生物就会更积极地尝试引发所有被标注为“有价值”的事件。只有大量引发这些事件进行试错，才能获得足够的样本容量判断这些事件哪些更可能有价值、哪些更可能没有。

如果某“有价值”的事件发生之后奖赏真的发生了，说明对该事件“有价值”的推测正确了一次，多巴胺水平不变，维持生物引发此事件的意愿。如上个自然段所述，奖赏发生前意愿刚刚被增强过，所以意愿其实增加了。

如果某“有价值”的事件发生之后奖赏没有发生，说明对该事件“有价值”的推测失败了一次，多巴胺水平下降，减弱生物引发此事件的意愿。但因为奖赏发生前意愿也被增强过，所以生物不会轻易失去尝试的意愿。

长期来看：奖赏多次如期出现后，有价值事件的价值会逐渐累加，生物引发有价值事件的意愿也会逐渐变强，而这有利于生物生存繁衍。奖赏多次没有如期出现以后，意愿会降得过低，生物将不会再尝试引发此事件，以保留体力与资源。多数情况下，预测是既有成功也有失败的，而不同事件的价值差异代表着它们引发奖赏的成功率各有不同，生物可以参考成功率选择行动。随着判定了价值的事物越来越多，需要排除的可能性就越来越少，脑判断新事物的价值的速度也会越来越快。

相应的，惩罚也会和奖赏以一样的方式同时影响生物。

这种学习模式也用在了人工智能程序中，AlphaGo等一众可以自我学习的人工智能程序的突破就在于程序员放弃了靠自己的思考去编写所有代码，而是让程序像脑一样“深度学习”。程序员只给程序写少量的判断结果“好”和“坏”的标准的代码，让程序自己去盲目试错，极大地减少了编程的工作量。程序先做出随机选择，再用评价标准检验选择，做出大概的判断，然后根据标准给每个选择赋值，相当于让电脑感到“快乐”和“痛苦”，接着调整选择以使下一次选择更加符合评价标准的要求。最终程序通过自己和自己博弈建立起了庞大的简略模型群并总是采取价值更高的选择，同时根据新信息不断调整模型。深度学习和人脑的联结学习模式如出一辙，在部分领域也达到了人脑的水平。事实上，现在程序员已经不太清楚那些自主学习程序到底是怎么得出某个运算结果的了，就像我们不清楚自己的脑是如何得出结果的。

综上，在联结学习中，奖赏细胞利用释放多巴胺激励生物尝试引发在奖赏出现前发生的各种事件，并在事件没有引发奖赏时降低多巴胺水平以降低生物再次引发该事件的意愿，一段时间后，生物就只愿意引发有较高概率引发奖赏的事件了。

4.5脑中的世界图（脑构建了认知地图以记录各个事物间的时空联系，在其中标注出各事物可能引发赏罚的概率，组成物质世界的模型。脑一边根据概率趋利避害地行动，一边根据预测的正误去随时调整这个模型。）

通过联结学习，脑可以给世界中的所有物体和行为都赋予了一个价值：引发奖赏的概率越高，价值就越高；引发惩罚的概率越低，价值就越低，然后按照价值高低趋利避害的行动即可。

问题是世界中的事物如此之多，出现的位置与时间又会改变，我们要如何知道到哪里去找到这些事物以触发奖赏或避开这些事物以躲避惩罚？

在20世纪早期，许多心理学家都认为如果没有赏罚刺激，生物就不会进一步地了解世界，生物是靠一连串的与赏罚密切相关的联结学习来了解事物的空间位置和时间顺序的。例如，小鼠学会走迷宫的过程就是在食物奖励的驱动下不断盲目试错最终建立一系列正确联结的过程。

但爱德华·托尔曼则证明了生物不需直接的赏罚刺激也可获知事物的时空关系。

托尔曼将三组小鼠放入迷宫的起点，A组在迷宫终点放入食物，B组不放食物，C组前十天不放食物，第十一天开始在迷宫终点放入食物。结果是A组走迷宫的表现稳步提升，B组没什么进步，C组前十天和B组表现相似，但从第十一天开始，只用三到四天即可追平A组的表现，甩开B组。最合理的解释是，C组的小鼠在尚未出现赏罚刺激的前十天中就已经对迷宫的空间结构有所了解，只是它们缺乏足够的走迷宫的动力，所以一旦有了奖赏作为动力，它们的表现就会快速提升。

托尔曼又做了另一组实验。他将小鼠放在只有12点钟方向有唯一的通道的圆形房间中，通过复杂曲折的通道后可以绕到有食物的小房间，小房间位于圆形房间的3点钟方向。在小鼠可以熟练绕到小房间后，他将小鼠放到一个拥有12条直直地通向12个不同方向的小房间的长暗道的圆形房间中，食物仍放在3点钟方向的房间中，然后将12点钟方向的通道堵死。大多数小鼠并未尝试走和原来的通道相近的1点钟或11点钟方向的通道，而是径直进入3点钟方向的通道。这说明小鼠不仅可以记忆自己亲自走过的“序列地图”，也可以直接获知表示食物和圆形房间的空间位置关系的“综合性地图”。

经过了一些列后续实验，心理学家证明了许多种生物都拥有可以标注事物的时空关系的“认知地图”，认知地图即可以表明方位或早晚，也可以表明路线或顺序，并且在没有奖惩刺激时生物也会尝试探索周边环境并建立认知地图。就像联结学习那样，认知地图的构建过程往往不会被我们意识到，但我们可以清楚地意识到认知地图的结果。

至此，我们就了解了脑是如果构建我们对物质世界的体验的第一部分：脑构建认知地图以记录各个事物间的时空联系，在其中标注出各事物可能引发赏罚的概率，组成物质世界的模型，并根据每次预测的正误去随时调整这个模型。只要接近高价值区域，远离低价值区域，生物就有更大的可能获得奖赏、避免惩罚。

对认知地图的研究也扩展了学习的定义，即使没有赏罚的直接刺激，脑也会去尝试不断在各个事物间建立联系，因为这样做是有潜在利益的。从进化心理学的角度推测，如果能够提前收集有关中性刺激的信息，那么在赏罚出现时就能够更快速准确地预测出引发赏罚的中性刺激是什么，生物也就更容易生存下来，久而久之生物就形成了倾向于扩展完善认知地图的本能。认知地图并不与由赏罚刺激驱动在各事物间建立联系的联结学习模式冲突，而是相互补充。

第四章小节——用过去去预言未来的先知与用未来去窥探过去的时空旅行者

脑是这样构建物质世界的：在受到奖赏或惩罚后，脑会预测在赏罚前出现的所有事物会引发赏罚，然后通过尝试体验预测是否正确来增强或削弱对这些预测的确信度。最终通过大量统计为所有事物都预测了可能引发赏罚的概率，即“价值”。脑还构建了认知地图以标注事物的时空关系，组成了充满价值标签的物质世界模型，一边根据概率趋利避害地行动，一边根据新信息调整对概率的预测。

（未完待续）

点击就送......其它章的读书总结

羽毛儿读《心智的构建》——第四章·絮叨版（上）