在第二章的Part-1和第二章的Part-2中,笔者分别摘录和评述了适应性主体的执行系统和信用分派算法。
1. 首先,霍兰基于规则为适应性主体进行建模。将主体在某个固定时间上的能力刻画为包含一组探测器、一组IF-THEN规则和一组效应器的执行系统。
2. 然后,霍兰认为,规则是正在进行检验和确认的假设。因此,规则之间有可能相互矛盾,基于信用分派算法,主体内部的多个规则之间进行竞争,通过环境的反馈进行强化学习和适应。这种矛盾共生的规则集合会产生缺省层次的模型,因为缺省规则的条件容易被满足,从而容易被检验和建立,而具体规则需要更长时间,并且这两类规则互相补充,可以共生并且构建出更好的内部模型。
本篇作为第二章:适应性主体的Part-3,主要是回答 “缺省层次的规则候选者如何产生?”这个问题。笔者理解:
1. 如果用白话说,就是“规则是如何无中生有的?”
2. 如果要映射到AI领域的流行案例,就是“阿尔法元的规则是如何产生的?”
霍兰是遗传算法之父,所以他主要阐述的是基于遗传算法的强化学习-,但并没有限制其它方法,比如“神经网络+蒙特卡洛树搜索(MCTS)”。
规则发现算法
笔者还是采用环环相扣的问题牵引的方式,来梳理出霍兰的思路。
1. 发现新规则的基本思路是什么?
短回答:使用已有规则的积木。
长回答:
如果已经存在部分规则,这些规则可以基于某些历史经验、遗传的本能或者计算机随机生成。随机试错法是对已有规则上进行随机修改,未利用过去经验,所以大多数的改动不会生成更好的规则。霍兰提出基于“貌似真实性”的修改:用现有强规则的部分,作为积木,组合为新规则。注意,这些新规则都只是待检验和确认的假设,但是比随机试错法还是有效的多。
霍兰类比了技术创新,比如计算机运用了盖革粒子计数器、阴极射线管和直流电线等当时强规则的积木。在诸多积木组合的可能性中,正是某种特定的组合带来了创新。又如晶体管,一种新的积木被发现通常会带来一系列的创新。另外,新的积木经常也是从更多的积木派生出来的,类似于C++里的多重继承。
2. 如何找到规则的积木呢?
短回答:规则是个字符串,积木就是其中的子串。
长回答:
潜在的积木应该是能够适应环境的。类比遗传学,那么规则=染色体,积木=?。第一种简单回答是积木~=等位基因,但是等位基因在不同环境下有不同作用,并且等位基因之间会相互作用,所以在给定环境中,适应度是等位基因的非线性函数。因此,存在处理给定环境和非线性函数两个问题,霍兰给出了它的回答:
1. IF/THEN规则中,条件部分IF就选定了环境。条件等同于它接收的消息的集合。
2. 用规则字符串的子串,来构造模式,类比等位基因的组合。模式等同于它作为积木的条件的集合。
3. 有了积木,如何生成新规则?
短回答:遗传算法,类比染色体,进行规则间的重组。
长回答:
遗传算法不断重复繁殖、重组和取代的三个步骤:
繁殖
从现存群体(对主体而言就是规则的集合)中挑选亲代,适应度高的,被挑选的概率大。
重组
亲代串进行配对、交换以及突变产生后代串。
1. 交换:即crossing over,规则R1和R2选定一个交叉点,保留规则R1从起点到交叉点的子串,以及R2从交叉点到终点的子串,然后重组出一个新的规则,另一个新规则以此类推,如图所示。
HO-Crossing Over
在交换过程中,短的模式更可能被继承,长的模式更可能被打断。霍兰解释说:长模式被打断并没有太大问题,因为强度高于平均的短模式往往较早期被发现和确立,而复杂的模式往往由较短的、已经确立的模式组合而成。随着高于平均数的模式占领了群体大部分,它们在交换过程中被打断的概率被大幅下降,形成了抗干扰能力,为更长模式的发现和确立奠定基础。
2. 突变:通过偶然地把某个等位基因改变,可以让群体重新搜索,降低陷入局部最优模式统治群体的情况。
取代
后代串随机取代现存群体的选定串,保持群体规模不变,表征了死亡过程。
4. 遗传算法做到了什么?
短回答:生成了新的,更好的规则集合。
长回答:
1. 遗传算法做到了积木操作:仅仅通过对规则串的操作,就实现了积木的复杂操作。
2. 遗传算法具有隐式并行性:规则串的繁殖、交换和突变并没有直接针对模式作显式计算,但是却通过相对较少的规则串显式操作,使得高于平均的模式被下一代更频繁使用,从而隐式地、并且并行地完成了大量模式的操作。
霍兰如此总结了遗传算法背后深刻的意义:
1. 在群体演化的过程中,特定的个体会消失不见,但是他们的积木却会不断再现。就像人类群体演化中出现的杰出者终将死去,但他们的品质不断再现。
2. 进化过程会"记住"了提高适应度的积木的组合。类比于DNA序列到等位基因,再到等位基因的组合,即共适应等位基因。例如三羧酸循环,流传几亿年却依然统治生物界。
3. 进化过程不断创新,构造越发复杂的模式,但在每个层次上,它都保留重组过的元素,从而完成创新。
应用于规则发现的遗传算法,用极其简单的语法模拟了上述过程。
写到这的时候,笔者才窥探到,自然选择的伟大和遗传算法的精妙。
有了适应性主体的模型,我们必须提供一个环境,允许适应性主体在其中相互作用和聚集。这就是第三章的主题。接下来三天,笔者将梳理和发布对“第三章:回声导致的涌现”的摘录和评述。
网友评论