上篇文章对围棋AI的演进做了一个简单的说明,这篇文章介绍下alphago zero在棋力上的取得的突破性进展原因。
在Alphago zero论文中,用ELO Rating来评估围棋AI的水平。ELO Rating是应用于对抗类竞技项目中评测选手相对水平的方法,ELO Rating分数相等的两名选手,获胜预测概率都是50%。如果一个选手A比另一个选手B的ELO Rating分数高100,则A选手的预测获胜概率为67%。Alphago各版本ELO Rating分数如下图所示。
Alphago历史版本分数DeepMind团队最先开发的Alphago版本是Alphago Fan,也就是2015年击败欧洲冠军樊辉(樊辉是职业二段水平)的版本。Alphago Lee是2016年3月4比1击败李世石的版本,在此之后,DeepMind团队研发了Alphago master在2017年1月线上比赛60比0横扫全世界最顶尖的职业围棋选手。Alphago Zero 100比0胜Alphago Lee,89比11胜Alphago master。
媒体报道中的Alphago zero,最引人关注的莫过于Alphago zero能够不需要是人类棋谱进行学习,做到无师自通。这一点其实容易被带偏,对于Alphago zero的学习来讲,并非不需要棋谱,只不过棋谱可以通过MCTS框架,由Alphago zero的自我对弈模拟产生,作为学习的样本,来替换之前版本中的人类棋谱。个人认为Alphago zero棋力能够不断提升的关键在于,MCTS搜索框架巧妙的融合随机模拟步骤,能够探索之前没有下过的棋,自我对弈产生的棋谱能比之前更好,进而能够不断提升棋力。随机模拟产生棋谱并非是Alphago zero的首创,但是DeepMind团队做出了关键性改进。
强化学习与监督学习效果对比上图中蓝色曲线代表自我对弈学习(强化学习),红色曲线表示从人类棋谱进行学习。可以看出,Alphago zero从零开始学习,只需要30多个小时就超越了击败了李世石的alphgo 版本,但是只从人类棋谱进行学习的算法确始终无法超越击败李世石的版本,从这点上看,人类的经验确实成为了Alphago 提升棋力的瓶颈,这也是alphago zero最广受关注的一点。
任何一个问题只要能转化为可计算的逻辑,理论上讲计算机都会做的比人好(比如五子棋、国际象棋以及现在的围棋),实际中能不能实现,要看计算力能满足求解需要。围棋状态如此复杂,以当前的计算机结构和计算能力,如果暴力求解显然不可行,因此解决问题需要找到更高效的计算逻辑,也就是新的算法,Alphago zero的算法就是围棋AI乃至人类AI的一个里程碑。由此也可看到,算法是推动AI前进的源动力,这也是最近网上广为流传的一个观点。当然也不能忽视计算力和数据的支撑性作用,实际上要想做好AI,算法、数据、计算力缺一不可。
AlphaGo系统中的两个关键组件,价值网络与策略网络。针对当前棋面,策略网络用来预测每一个可选位置落子的概率,估值网络用来评估最终获胜的概率。在Alphago Lee及之前的版本中,策略网络与价值网络分别是两个不同的网络,需要分别进行训练。Alphago Zero中将价值网络与策略网络融合在了一个神经网络,同时Alphago zero将之前的卷积网络结构替换成了残差网络结构,下面将对网络结构改进进行分析。
网络结构改进分析上图中dual-res表示价值网络与策略网络共享一个网络,网络结构采用残差网络;sep-res表示价值网络与策略网络分别用一个神经网络,网络结构采用残差网络;dual-conv表示价值网络与策略网络共享一个网络,网络结构采用卷积网络;sep-conv表示价值网络与策略网络分别用一个神经网络,网络结构采用卷积网络。
从图a可以看出来,网络结构由卷积网络替换为残差网络后,分数提高了600以上,可见残差网络在威力之大。值得一提的是,残差网络是中国人在深度学习研究的代表性工作,也获得了2016CVPR最佳论文奖(CVPR是人工智能中计算机视觉领域国际顶级会议)。将价值网络和策略网络合并后,对走子策略预测精度有所下降,但提升了对最后下棋结果的预测精度,分数提升了600多。将网络进行融合后,可以提升计算效率,更重要的是用一个网络来处理多个任务,系统设计变得更简洁。
总结起来看,Alphago zero主要创新有两点:(1)提出了一种新的强化学习算法,无需人类棋谱,可以自我对弈产生棋谱进行学习;(2)提出一种新的评估网络,能同时进行策略评估和价值评估,且不需要人工设计特征。
网友评论