神经系统的出现开启了生命的新篇章,也让地球从此变成了修罗场,个体不仅要面对环境的无序,还要与其他个体进行生与死的对抗。
但支撑动物存活下去的关键并非力量、大小和速度,而是感知。倘若无法感知环境,动物根本就不能获取信息来指导自己的任何行为,所有的敌人都会犹如隐形。
而这场生存游戏的实质,就是侦察、隐蔽与欺诈的信息战,不过动物只是由一群细胞所构成的共生体,究竟又是如何感知这个世界的,你所看到的、听到的究竟是什么?
动物的感知产生于两组细胞群之间的精密协作,感觉细胞群负责将物理信号转换成对应频率的电脉冲,而神经细胞群则负责搞清这些电脉冲究竟是什么意思,也就是说,感知其实是神经细胞群,基于这些电脉冲对环境做出的一种猜测,而视觉就是这其中最为强大的猜测手段之一。
虎甲虫是地球上相对速度最快的动物,它拥有极其优秀的视觉,然而在奔跑中的虎甲虫根本看不清周围,那么它又是如何避免自己撞死在障碍物上的呢?答案是:触觉。奔跑中依靠头上的触手来预测信息,每跑一段距离,又会停下来靠眼睛的预测信息,这里,视觉信号和触觉信号都可以用来预测障碍物信息,而承载信息的信号形式叫做模态,每种感知都对应着一种模态。
虽然从不同模态可以获取相同的信息,但仅依赖一种感知的动物是无法存活的,因为每一种模态都有它的局限,比如视觉模态精度高、传播快,但却受光源影响,也会被障碍物遮挡。听觉模态虽不被遮挡,但传播慢,在噪音环境下的精度也会大幅下降。
不仅如此,感知本身也存在缺陷,很多情况下动物无法获得感知所需要的模态输入,比如在没有可见光的情况,下视觉就会失效。又如猫头鹰作为捕食者,最恐怖的地方不在于飞行速度,而在于飞行时几乎不产生声音,使猎物的听觉,无法感知它的靠近。
同时动物也非常容易因两组细胞群的受损而失去感知,比如当毛细胞受损后,即使神经细胞完好,听觉也会受损,又如当识别人脸的神经细胞出现问题时,即使感光细胞完好,也无法认出人脸,就好比始终在看着人脸的倒像,而且任何感知都可以被欺骗。
比如这种模拟花的螳螂,就会欺骗猎物的视觉来诱捕猎物,或许这种螳螂的拟态并不足以欺骗人类的视觉,但人类也有自己的化妆术。还有雄蛇可以释放雌蛇的气味诱惑,其他雄蛇帮自己升温,当然人类的男性也会在网上假扮女性,诱骗其他的男性。
然而感知的可靠性却关乎动物的生与死,那么面对模态和感知的缺陷,当时的动物又是怎么做的?
答案是引入更多模态的感知,当任何一个感知不可用时,便使用另一个,比如猫,不仅演化出了极好的弱光视觉,高灵敏度的胡须触觉,还有卓越的听觉。鲶鱼则全身长满味蕾,形成了超强的体外味觉感知,有如游动的舌头,魔鬼鱼和鲨鱼等动物也引发出了感知电场的能力,可以侦测到藏在土中的生物。
但当引入多种感知后,新的问题,却又出现了。不同模态,对同一件事情的预测可能会彼此冲突,比如这个实验中参与者从体感模态获得的信息是左手离镜子较远,但从视觉模态获得的信息却是,左手在镜子旁。
而最常见的问题还是任何一个模态所获得的信息,往往都不足以作出可靠的猜测。比如虎甲虫的眼睛在奔跑时就无法捕捉到足够的光子来预测障碍物。可为了生存,动物必须利用一切可能的信息源,来对环境做出预测,也就需要将多种模态的感知进行融合。
事实上动物的感知从诞生之初就是多模态融合的结果,比如人类对别人说了什么的猜测,就取决于视觉模态和听觉模态的融合。而大脑对什么是自己的身体也是一种猜测,这种猜测同样取决于多模态感知的融合。
在先前的实验里,虽然体感模态会胜出,让大脑得出左手离镜子较远的猜测,但当参与者开始敲击桌面时,就加入了触觉模态,也会告诉大脑,左手在镜子旁,这时视觉模态和触觉模态融合后的猜测,就会胜过体感模态的猜测,让大脑最终认为左手在镜子旁。
这是因为当多种模态同时给出相同猜测时,意味着这个猜测的可能性更高,所以大脑研演化了一种融合机制:等多种模态的信息同步时,大脑就会被吸引注意力,并重塑对现实的猜测。
比如上镜的视频与单纯的音频在文本信息上并没有区别,但人们却依然喜欢前者,因为信息同步的视觉和听觉,会吸引大众的注意力。这也解释为什么当老师的讲解与PPT不同步时,学生更容易溜号。
而多模态同步也是魔术中最常用来欺骗大脑的技巧。比如腹语表演,当人偶嘴唇的运动与说话人的声音同步时,大脑就会利用两种模态的信息判断声音是从人偶口中发出的。
然而这些才是符合规律的现象,因为动物永远没有办法直接感知世界,只能演化出感知信息来躲避危险的能力,只要信息一致,不论由什么媒介产生,对动物而言,就会是“现实”,因此才需要更多模态的感知来避免单一模态被欺骗的情况。
而这种取决于信息的现实,也将世界引领到了如今的信息时代,人类也用非演化的建模方法,创造了一系列的人造感觉。但人造感知同样面对当初动物面对的,模态缺陷问题。
比如坏天气下的自动驾驶,嘈杂环境下的语音识别,就会出现模态输入失效的问题,又如指纹、虹膜等个人安全信息的识别系统,同样可以被复制品欺骗。而解决这些问题的方法,正是动物在数亿年前就学会的多模态融合。
比如自动驾驶的解决方案,就是将速度感知、压力感知和视觉感知等多种环境预测进行融合,来判断该如何躲避危险,又如上海地铁站的语音售票机能在噪音环境下识别用户说话,也是因为同时使用了声音和口型两种模态。
而在活体识别上获得ISO二级安全认证的支付宝能够有效识破照片、视频等欺诈的关键同样是多模态融合,也率先立项了这种融合在安全部意义上的国际标准。
但多模态融合技术并不容易,虽然我们知道很多解剖学和神经学的知识,却并不知道神经细胞们究竟是怎么判断,该融合哪些模态、什么时候融合以及怎么融合的。
如今的人造感知,已经被应用到了社会的方方面面,也包括在你我自身上,很多科幻作品都喜欢描述那些人体强化改造随处可见的赛博朋克时代,但事实上我们已经身处这种时代,只不过当前的多数改造并非躯体强化,而是感知扩展。
因为在这个时代,生存所需要的并不是能开膛破肚的尖牙利爪,而是能预测信息的感知与模型,电脑手机等机械设备已经是我们无法离开的身体延伸,这也是为什么每个人生下来便在不停地学习,不断的让大脑的神经网络与人造感知建立连接,而这场从5亿年前就开始的生存游戏,到今天,也并未结束,只是有些动物并不知道自己就是猎物。
网友评论