说到迷信,我们可能并不陌生,迷信作为一个已经被我们贴上颜色标签的词,我们每个人都会有特殊的反应。说到强化学习,我们可能也并不陌生,作为人工智能博弈类的常用方法,至今还并未纳入到传统的机器学习方法中。但我们这次既不从迷信这个哲学角度开始说起,也不从强化学习这个人工智能领域里说,我们这次从生理学与心理学的一个经典案例开始说起。
对于生理上的强化学习最经典的案例莫过于巴甫洛夫的条件反射说,而它的那条著名的会流口水的狗,也成为众所周知的对象。巴甫洛夫的条件反射学说认为:在生理上存在着2种反射,一种是无条件反射,它无需学习,映射在每一个物种的基因上,一代一代传承下来。另一种是条件反射,它下可以通过经验或者学习获得。而巴甫洛夫的实验表明,通过一定的刺激和关联,其中性刺激也可以转化为条件刺激。这就是著名的“摇铃铛就会流口水的狗”的实验,事实上,巴甫洛夫用的是节拍器。这种试验尽管已经过去90年(《大脑:两半球活动讲义》1927),但现在你也可以在自己身上重复这种实验,而且确实是可被证实的。
这种基于反射的学习方式被我们广为应用,我们不断的进行考试,不断的进行模拟考试,就是为了不断的强化我们对于知识的掌握程度,我们中国学生之所以在各项竞赛中获得较为优秀的成绩,离不开各种强化学习的方式,但是我们学习到的反射,其重点在于,遇到问题——寻找解决路径——解决问题的后半部分,也就是从可能解决问题的若干种方法中找到确实解决问题的方法。而国外教育的大部分重心用在了其前一部分,但这并不是说国外的比国内的优秀,就中国目前情况而言,现今的教育体系使得我们国家从一个一穷二白的状态上升为一个一流大国的行列,这种速度至今世界上也没有第二个案例发生,但是要继续发展下去,可能需要考虑一下教育的改变了。
好的,回归正题,上述所说的巴甫洛夫的狗和我们的强化学习有什么关系呢?就其本质而言,近乎相同,它简单来说,也就是通过自己的行为与环境中的变化之间的一定的关系,来改变自己行为状态的过程。例如,在某一情境下,一个行为可以获得“奖励”型的结果,那么这种行为就会得到强化,而如果一个行为可以获得“惩罚”型的结果,那么这种行为就不会得到学习或者得到抑制。这种论述早在80年前(《有机体的行为:一种实验分析》1938)就已经被经验性总结了,直到20年前(Morris,1997)才被正式提出。这也正是强化学习为什么如此年轻的原因之一。
在人工智能的强化学习领域,也许这种行为对于所谓的博弈类问题都有着较为出色的表现,包括最近2天,还是那个风头正盛的DeepMind公司,正在搞一个人工智能的合作-对抗实验,其游戏名叫 Gathering,比赛收集苹果,人工智能控制的玩家可以用激光冻结对方。研究者发现,当苹果的余量充足时,双方相安无事,但当余量不足时,对抗就比较激烈了,冻结的情况经常发生。而当其中一方换成级别更高人工智能时,它会更主动地提前冻结对手。更为智能的人工智能会对外界环境变化更加敏感,从而更快的做出更加有预见性的决策。
然而,在生理学和心理学上,对于其学习到的条件反射是否可以学习基本上不存在疑问,更多的是对于其学习到的条件反射是否可以“退化”持不同态度。这也正是很多心理学实验被指存在伦理道德问题而终止的原因。在100年前,人们的伦理道德观念还并未像现在这么强烈,因此也出现了个别的以人为实验样本的心理学实验。约翰.华生的《条件性情绪反应》(1920)给出了一个“阿尔伯特”小孩子的实验,主要是用来检验我们人类会反射性的习得各种情绪,很显然恐惧是一个最容易观察和不被伪装的情绪,而这也正是小“阿尔伯特”可怜的原因,虽然并没有后续研究证实小“阿尔伯特”因为此次试验而从此对于毛绒物品产生恐惧,但截止到离开实验1个月后,小“阿尔伯特”仍然对毛绒玩具产生恐惧心理。华生也因此计划对阿尔伯特重建条件反射,但是由于他是一名孤儿,被收养后,就没能继续进行矫正实验。
实际上,这种根据条件反射习得的情绪性反应会随着时间的流逝而逐渐的消褪,这已经被我们所有人都得到证实,想想我们经历过的“失恋”、高考失利、亲人去世等一系列重大变故,但我们最终挺了过来。但是其习得的情绪对我们越重要,其消褪时间越长。这一点我们会在下面进行讨论。
那么说到这里,可能要增加一点思考,对于强化学习来讲,我们总是不断的对机器施加学习的条件从而表现出我们想要的状态,如果想要人工智能表现更接近人的表现,我想对于机器已学习的技能进行适当的消褪,也许会有更好的效果。当然这和过拟合类似,因为在机器学习中,我们通常使用惩罚项来对学习效果进行削弱。强化学习的技能消褪,也许对于通用型人工智能的多技能发展提供一点帮助。毕竟在一时间内,人工智能的物理性能保持相对稳定,而为了让它能有多个技能,有必要对已学习的技能进行消褪,为其他技能的发展留出性能空间。
以上讨论的,是基于对于条件的完全掌握的情况下,我们做出的实验性结果。尤其在计算机这种人工智能对于输入有着充分了解的情况下,这种条件反射性学习当然十分有效。如果我们对于外界的反应并不能有效的认识,从而错误的把自己的行为和外界反应进行联络,那么就有可能产生迷信的现象。你可能以为迷信的现象只存在于人类这种高智能生物中,我们可以通过我们丰富的想象力对于事物与事物之间的联系进行自我创造。但是斯金纳的鸽子将会同巴甫洛夫的狗一样,告诉你,这种行为不仅是人所拥有的特性,而是生物界普遍拥有的共性。
在《有机体的行为:一种实验分析》这篇斯金纳的论文中,使用了一种“斯金纳箱”的装置,这种装置内放进一只白鼠或鸽子,并设一个杠杆或键,箱子的构造尽可能排除一切外部刺激。动物在箱内可自由活动,当它压杠杆或啄键时,就会有一团食物掉进箱子下方的盘中,动物就能吃到食物。
当然,最初斯金纳使用的是白鼠做的实验,取得了不错的效果,包括奖励反射、惩罚抑制、周期控制、赌博行为以及迷信行为的验证。我们这里想讲解的是关于鸽子的实验。
这次实验的是8只鸽子,实验内容是,食物分发器被设定为每个15秒落下食丸,不管动物当时在做什么。那么为了强化实验效果,特地饿了鸽子几天,而最终的实验结果都被斯金纳如实的记录道:
8只鸽子中的6只产生了非常明显的反应,两名观察者得到了完全一致的记录。一只鸽子形成了在箱子中逆时针转圈的条件反射,在两次强化之间转二到三圈,另一只反复将头伸向箱子上方的一个角落,第三只显现出一种上举反应,似乎把头放在一根看不见的杆下面并反复抬起它。还有两只鸽子的头和身体呈现出一种钟摆似的动作,它们头部前伸,从右边快速地摆动到左边,接着再慢慢地返回,它们的身子也顺势移动,动作幅度过大时还会踉跄几步。还有一只鸽子形成了不完整啄击或轻触的条件反应,动作直冲地面但并不触及。
从上述描述中,可以很明显的发现鸽子也变得“迷信”了,如果把奖励时间放长到1分钟一次,鸽子的表现则更加亢奋,甚至出现了“鸽子舞”的状态。然而要消褪这种迷信的状态,斯金纳的实验告诉我们,至少要10000次的失败后,鸽子才不会有这种反应。
这种行为让我联想到了古代人们的求雨的祭祀过程。也许事实上只是某一次某一人的一种偶然行为与降雨正相符合,才使得人们对于求雨祭祀的有效性得到肯定。而古时环境恶劣,通常收成不好,人们对于风调雨顺就变得异常渴望,一旦有雨与祭祀偶然相遇,则更加强化了这种迷信行为。
虽然在布鲁纳和列维斯基1961年设计的实验证明人类时十分容易产生迷信行为,而且迷信者都没有意识到自己的迷信行为。但是,在(Aeschleman,Rosen,& Williams 2013)研究中,比较了两种强化类型在迷信形成中的作用。正强化是行为的后果是得到一些你想要的东西(例如金钱、食物或者赞扬)。而负强化是通过消除掉你不喜欢的事物来进行奖赏(例如可以不做家庭作业和减少疼痛)。该研究发现,更高水平的迷信行为(对非偶然事件知觉到的控制)是在负强化的条件下形成,而非负强化下产生。这让我想起假期里我爸对于迷信组织中成员状况的认识:只有自身处境不好的人,才会寻求迷信组织的帮助。他们需要摆脱现实生活中的一些不好的事情,才会去参与迷信活动。
回归到我们的人工智能上来,目前人工智能的强化学习是处在一种100%认知的条件范围内,也就是说,影响人工智能的行为的因素对于人工智能来讲是彻底了解的,并不会有人工智能不知的情况发生。如果换做是真实情况,我们可能把这种行为称为是噪声,从而进行去噪处理,但是真正的人工智能所面临的环境因素就是我们人类现实生活中的各种不确定性因素(简单来讲,多数情况下,你并不清楚女生因为你做的什么事情而喜欢你。),这恰恰是连人都没有办法剔除的噪声。
当你没有办法对伴随你的行为而产生的环境变化做出彻底认识时,你可能没有办法正确的做到强化学习,这可能也是同样的环境下,双胞胎会成长为2个不同的独立的人的原因吧。
网友评论