第五章:我们对世界的感知是一种与现实相符的幻觉
按照联结学习只把事物分为“可能引发奖赏”和“可能引发惩罚”两类可不足以满足我们对世界的体验(“感”)与识别(“知”)。我们要先能够识别非条件刺激,才能做到非条件反应。同样,我们要先能区分各种中性刺激,才能将某种中性刺激和赏罚联系起来。我们是怎么将刺激转化为体验的?又是怎么将刺激的种类区分开的?又是怎么保证自己的感知结果是正确的?
问题在于,如前文所证的那样,心智只能意识到感知的结果,无法意识到感知过程。想要了解感知的运作原理,只能制造出具有相似感知功能的机器进行类比与推测。
5.1信息革命(计算机和人脑处理信息的基础模式相同——通过一系列“是或否”的验证将信息转化成一系列的电脉冲传递或电脉冲抑制以存储、读取、加工信息)
第一个问题,脑在最基础的层面是怎样运行的?
对脑的解剖研究显示:脑内存在近千亿个神经细胞,每个神经细胞都有多个纤维状突出结构,每个结构的末端都有名为“突触”的结构,突触紧邻着其它神经细胞的突触,两个突触之间存在名为“突触间隙”的缝隙。
如前文所述,对脑的特定区域进行电刺激会使被刺激者产生某些特定的行为和感知。电刺激可让神经细胞变得活跃,使其产生电脉冲。电脉冲会传导至突触,虽然无法通过突触间隙,但会促使突触释放名为“神经递质”的化学物质,激活突触间隙对面的神经细胞的突触上的名为“受体”的结构。不同神经细胞能够释放的递质不同,每种递质都可以激活一种受体,受体也有多种,有些被激活的受体刺激神经细胞产生电脉冲,有些抑制它产生电脉冲。(实际上这些叙述并不完全正确,更不完整,神经传导是非常复杂的,但简化后方便理解。)
但电脉冲的传递和抑制这种二元变化如何使脑感知具有各种复杂特征的物体?
可以参考其它靠电脉冲的传递和抑制运作的物体——计算机。计算机的运转原理是什么呢?
我们必须要稍微了解一下信息论,数字计算机的理论基础之一。信息论的创建者克劳德·香农(说他是信息时代的主要开创者之一也不为过。他不仅创建了大量理论,还创建和规范了大量定义,比如现代人挂在嘴边的information。定义比理论更重要,不然我们都不知道理论里说的每个词指的是什么。牛顿最容易被世人忽略的伟大功绩就是规范了经典物理学中的各项定义,让高效地交流科学知识成为可能)将信息定义为“用来消除随机不确定性的东西”,信息量被定义为以2为底的消除的可能性个数的对数,单位定为比特,代表二进制位。一切信息都可被替换为若干对“是或否”的可能性的消除,而获知信息所需的验证“是或否”的次数的平均值即为信息量。越是难以预测的信息,包含的信息量越大。
例如,去除两张“小丑”牌后,一张扑克牌的花色有四种可能,消除这些可能性平均需要两次检验,信息量就为2比特。验证过程例如:提问“花色是红色吗?”如果回答“是”,就再问“是方片吗?”如果回答“不是”,就说明花色是红桃。而扔硬币只有两种可能性,只需一次检验,结果的信息量为1比特。
由于可以把信息的表达简化成一系列简单的“是或否”的回答,只要设计出少量用来验证信息的问题,计算机就可以借助有无电脉冲等二元式物理状态改变来储存、读取和修改大量信息。
而神经细胞也只存在有、无电脉冲两种状态,神经递质和受体的差异化组合(非常复杂×2)也可以构成验证问题。
可以由此推测,计算机和人脑处理信息的基础模式相同——通过一系列“是或否”的验证将信息转化成一系列的电脉冲传递/抑制以存储、读取、加工信息。
可尽管计算机和人脑有相同的基础运作结构,也有许多相似的功能,处理相同任务的效率却不同。例如,人脑不善于数字运算,而电脑则很擅长;人脑善于识别,电脑却不擅长。说明人脑识别物体的原理必然与计算机的存在差异,差异是什么呢?
5.2信息论的问题(脑和信息论面临同一个问题:个体要如何正确地根据接收到的信息个性化地改变对世界的认识)
要弄清人脑的感知原理与电脑的差异,首先要讨论信息论关心的,也是脑在识别时会面临的两个难题。
第一,同一段讯息携带的信息会因为接收者的先验知识不同而不同。
信息量的计算是建立在消除“随机不确定性”的数量之上的,而信息接收者各自都具有不同的先验知识,所以除了摇骰子、抽纸牌这种完全随机事件(事实上,每抽出一张纸牌,下一张纸牌的信息量就会发生变化),大多数讯息包含的随机不确定性的数量对于每个人来说都是不同的。
例如,熟悉英文的人知道一个单词中的“Q”后面一定会跟着“U”,“quick”中的“u”没有信息量。但对于只学过26个字母的小孩子而言,“quick”中的“q”后面有26种随机不确定性,“u”有信息量。
第二,信息的传递和接收可能出错。 这两个问题可以合并为一个:个体(无论是一个脑还是一台计算机)要如何正确地根据接收到的信息个性化地改变对世界的认识。
而就表现来看,脑无疑比计算机更善于处理这个问题,脑是怎么做到的?
不如先看看信息论是怎么解决这个问题的。
5.3托马斯·贝叶斯牧师(“P(A\X)=P(A)×P(X\A)/P(X)”贝叶斯定理可以精确地说明在获知新信息X的情况下,信息接收者应该将对A的确信程度改变多少。)
先来解决问题的第一部分:同一段讯息的信息量会因为接收者的先验知识不同而不同。
如上一节所述,要计算对某个接收者而言一条讯息承载了多少信息量,需要知道接收者在接收讯息前和接收后对世界的认识各是怎样的,并根据认识的改变判断信息量。
如前四章所述,心智的体验是脑构建出的假象,脑对世界的感知也可能出错,但多数情况下我们都认为自己感知到的东西是真的。也就是说,脑或心智对世界的认识本质上是一种信念,是对“刺激如感知到的那样存在”的确信程度。为了便于统计和计算,可以把难以量化的“认识的改变”转换成便于量化的“确信程度的改变”。
例如,“我看到硬币在空中旋转,然后看到硬币落地后正面朝上/反面朝上”可以转换为“我有50%的把握相信硬币会正面朝上落地,在硬币落地后我有99.99%/0.01%的信心确信硬币正面朝上”,确信程度改变了近50%,信息量增加了约一比特。
但确信程度的改变大多不这么直观,要如何精确测量出确信程度的改变呢?
借助托马斯·贝叶斯(两大统计学派之一的贝叶斯学派的奠基者,典范牧师,他研究统计学是为了证明上帝存在。我猜这个目的没成功)得出的贝叶斯公式,也叫贝叶斯定理(公式的命名很有道理,贝叶斯得出的公式总不能叫拉普拉斯公式或是猜不准定理):
P(A\X)=P(A)×P(X\A)/P(X)
(这是最简单的形式,贝叶斯公式的完全体是
,是在贝叶斯死后才归纳出来的。)
贝叶斯公式可以精确地说明在获知新信息X的情况下,我应该将对事件A的确信程度改变多少。
如前文所述,概率P代表我们对某事物的确信程度。P(A)是新信息X出现前我对事件A的先验信念,即我认为事件A确实存在的概率;P(X)是我对新信息X的确信程度。对于脑来说,事件、物体等刺激和信息都是信念的一种,三者没有区别,只是为了叙述清晰加以区分。P(X\A)是在事件A确定的前提下,将会得到新信息X的可能性;P(A\X)是在考虑新信息X后我对事件A的后验信念。
贝叶斯定理是如何推导出的?
假设以上四个数值已知,那么发生A事件且得到信息X的概率P(A∩X)是多少?根据我们下的定义,P(A∩X) 既等于 P(A)×P(X\A),也等于P(X)×P(A\X),也就是P(A)×P(X\A)=P(A∩X)=P(X)×P(A\X),稍微调整即可得出P(A\X)=P(A)×P(X\A)/P(X)。(贝叶斯公式的数学推导很简单,但是直观上很难理解公式中的逻辑。)
那么贝叶斯定理有什么用呢?
例如,一座别墅在过去的20年里被盗过2次,这是先验概念,P(A) = 2/(20×365) = 2/7300。二次被盗后,别墅主人决定买条狗防盗,因为当警察的朋友告诉他,在盗贼入侵时狗九成会叫,P(X\A)=0.9,看似买狗可以防盗。据观察,买来的狗平均夜吠概率为每周3次,这是新信息,P(X) = 3/7。问题是听到狗叫就起床查看实在太累,把狗链松开又怕狗咬伤路人。为了弄清到底该不该在狗叫时起来,狗主人需要知道狗叫时真的有贼的概率P(A\X)是多少作为参考。如果是按照传统的频率学派的统计观点,必须获得足够大的样本容量进行归纳,但是贼太少了,这要怎么实际统计呢?(在报纸上登广告邀请贼来偷以增加样本容量这主意怎么样?)
此时贝叶斯定理就派上用场了:
P(A\X)=P(A)×P(X\A)/P(X)=(2/7300)×0.9/(3/7)≈0.00058
也就是说,狗叫一万次,有贼的次数也不会达到六次,而且狗主人无法知道是哪六次。这样看来,养狗无用。
但养狗是有用的,因为小偷基本上都没听说过贝叶斯定理(“知道贝叶斯定理的人的事,能算偷么?”),他们都认为自己一去狗九成会叫(真),一叫狗主人就会出来抓他们(伪),所以小偷会避开养狗的人家(偷狗贼除外)。
此外,狗主人还可以借助公式提升狗叫时有贼的概率P(A\X)。他可以把狗送去宠物学校训练,提升分子P(X\A)的数值——让狗变得对入侵者更加机警;降低分母P(X)的数值——让狗学会区分,不对路人叫,只对进入院子的人叫。
除了狗叫防贼的问题,贝叶斯定理还可以在决策是否要采取措施应对各种小概率事件时派上用场。此外,贝叶斯定理还有多种扩展形式,其价值也可以进一步扩展。
例如,统计显示,到了40岁的妇女中有1%的人会患上乳腺癌,P(A)=1%,99%的人不会,P(B)=99%。实验表明,乳腺X射线照射检查对患乳腺癌的妇女的筛查准确率为80%,P(X\A)=80%;而只有9.6%的未患乳腺癌的妇女会得到阳性检查结果,P(X\B)=9.6%。准确率有80%,误报率只有9.6%,从直觉上看,做这种检查明显是有益的,应该推广。但是,如果所有妇女都做定期筛检,那么检测结果呈阳性而确实患有癌症的比例P(A\X)究竟是多少呢?如果是按照传统的频率学派的统计观点,必须先进行推广找到足够多的结果呈阳性的妇女,再挑出确实患癌的患者进行归纳。先不说推广花费的人力物力的问题,以为自己得了癌症的无病妇女受到心理冲击该怎么办?
此时贝叶斯定理又派上用场了:
P(A\X)=P(A)×P(X\A)/P(X)
=P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
=1%×80%/(1%×80%+99%×9.6%)≈7.8%
即,在检查结果为阳性的妇女中,超过九成的人并没有患上乳腺癌,她们都被误报了。而对于患癌的妇女来说,7.8%的概率并不比1%高出多少。不论患癌与否,做完这种检查后必须再进行其它检查核查,这种可靠程度的筛查真的有那么大的必要推广吗?
不过同样可以从贝叶斯公式中看出,如果患癌率P(A)较高,比如对于有患乳腺癌家族病史的人来说患癌几率更大,这种筛查的作用会大上许多。
其实不仅是这种检查,许多疾病筛查项目都有假阳性过多的问题(所以出了什么结果都先不用慌),而贝叶斯定理在公共健康领域发挥了巨大的作用。(贝叶斯的智慧恐怕比他的祈祷帮助到的人多得多,但促使他发挥才智的又是他的虔诚,多有趣。实际上许多科学家也是虔诚的宗教信徒,比如牛顿,他们虔诚地相信神的存在,但不相信教会的不合理说法。另一些科学家,像爱因斯坦,则虔诚地相信“用理性理解世界是可能的”。像爱迪生那样虔诚地信仰个人名利也可以推动科学发展。)
问题的第一部分“同一段讯息的信息量会因为接收者的先验知识不同而不同”就此解决了,贝叶斯定理可以精确地说明在获知新信息X的情况下,我们应该将对A的确信程度改变多少,这可以帮助我们让决策变得更加有效。
我们是可以利用贝叶斯公式解决第一个问题,但是脑是怎么解决的呢?脑也会利用贝叶斯公式在样本容量不足时推理出后验信念吗?
5.4理想的贝叶斯观察者(脑会以最大效率利用信息,我们体验到世界并不是真正的、完整的现实,而只是脑认为的最有可能为真的那部分现实)
由贝叶斯定理可以引出“理想的贝叶斯观察者”概念:总是以最大效率利用信息的观察者。
也就是说,每获得一个新信息,理想的贝叶斯观察者就会精确调整所有和这个信息密切相关的信念和对行动的参考价值,重视高概率事件,忽视小概率事件。同时,如果想要验证一个信念,理想的贝叶斯观察者能通过收集最少的讯息获得最多的信息量,从不收集没有必要的信息。理想的贝叶斯观察者不是永远不出错的先知,但他们是最高效的功利主义者。(强行推广上一节中的乳腺癌检查确实能多挽救一些人的性命或乳房,但从政府角度上看,他们必须要衡量这笔用于检查的钱是否更应该用来补助那些已经确诊的患者。)
但理想往往只是理想,像上一节展示的那样,我们,或者说心智,在思考小概率事件和庞大数目时并不擅长使用新信息。(这点可以用我们面对彩票的态度证明,既然我们都不担心被雷劈,为何还对发生概率更低的彩票中奖有所期望呢?)
没有任何证据可以证明脑在感知过程中使用了贝叶斯定理,贝叶斯定理的意义在于心智获得了用来判断脑是否正确、有效地利用了信息的标准。大量证据显示,在利用感官提供的信息时,脑是一个较为理想的贝叶斯观察者。
例如,在较安静的情况下,脑会专注于收集、处理听觉信息,较少注意视觉信息;而在环境嘈杂时,脑会比平时更为专注于收集、处理视觉信息,这些自动调整并不需要意识的参与。
如何判断脑的决策是最为有效的呢?
我们可以根据贝叶斯定理进行检验:
为了便于理解,我们合理假设一些熟悉的数值。脑根据大量经验统计得出,我会把别人说的音节听错的概率为1%,P(A)=1%,99%的音节不会听错,P(B)=99%。另外,脑还统计了,观察对方口形能将80%的听错的音节检验出来,P(X\A)=80%;而只有9.6%的可能会判断错口形,把听对了的音节当成听错了,P(X\B)=9.6%。根据直觉判断,准确率有80%,失误率只有9.6%,关注口形明显是有益的,应该时时关注口型。
但脑不会犯和心智一样的错误。根据经验我们也能知道,在平时的交谈中,我们不太关注对方的口形变化。因为脑清楚根据口形判断自己听错了,也确实是听错了的概率:
P(A\X)=P(A)×P(X\A)/P(X)
=P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
=1%×80%/(1%×80%+99%×9.6%)≈7.8%
能够利用口形纠正听错的概率只有7.8%,而没听错却用口形纠正错了的概率超过九成,所以平时脑很少关注口形。
但是在十分嘈杂的环境中,把别人说的音节听错的概率会骤增。我们假设P(A)=30%,其它的数值不受嘈杂环境的影响,此时根据口形判断自己听错了,也确实是听错了的概率是多少呢?
P(A\X)=P(A)×P(X\A)/P(X)
=P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
=30%×80%/(30%×80%+70%×9.6%)≈78.1%
能够利用口形纠正听错的概率高达78.1%,此时关注口形明显比较有利,所以在嘈杂的情况下我们会不自觉地更加关注他人的口形。
我们知道脑是根据概率感知世界,并以此为基础做出决策的。如果脑是贝叶斯观察者,脑就只会关注能极大地改变确信程度的信息,以此改变心智对现实的体验。同时,脑不会花费极多的资源去追求接近100%的预测准确率,脑会忽视对确信程度影响极小的信息并无视了与携带这部分信息的现实。
在第一到三章中已经证明了我们体验到世界并不是真正的、完整的现实,而此刻我们可以细化心智体验的内容——脑认为最有可能为真的那部分现实。
(未完待续)
点击就送......其它章的读书总结
那么絮叨版和纯净版的区别何在呢?
絮叨版里有括号里的斜体字内容,纯净版里则没有。
为什么要有两个版本?要是当初罗慕路斯和勒莫斯能够建像斯巴达人立两位王那样把权力分成两份,就不会出现手足相残的悲剧了,所以把东西分成两份还是很有必要的。
怎么办,这破理由我自己都说服不了自己...
网友评论