AlphaGo人机大战随想 -- 作者: 馋宗通吃

作者: 很小的小小鱼儿 | 来源:发表于2016-03-17 10:33 被阅读707次

本文是我的好友馋宗通吃观战后的感想，我帮忙发布在简书。如需转发请通知我，谢谢。

补充：我这个好友大学专业是计算机相关的，大学期间学过神经网络，写过棋类程序，也算是典型围棋爱好者。

AlphaGo 4:1 李世石，人机大战落幕。估计大部分人和我一样，从赛前对AlphaGo的轻视，到AlphaGo突然战胜人类九段的吃惊，再到李世石屡败屡战后点穴般“神之一手”的惊艳，到最后接受人工智能战胜人类九段的同时，又有一点点的感伤和对未来的担心。

本人吃货一枚，稍微研究过人工智能，现在陪小孩学围棋玩。下面从几方面随便聊聊自己的想法，也算是对这些天自己心路历程的一个记录吧。

一、说说狗狗（注1）

AlphaGo由3部分构成：Policy Networks/Value Networks /蒙特卡罗搜索树（MCTS）。下面简单介绍它们仨。

1）Policy Networks

Policy Networks根据当前局面，评估下一步走哪里？它分为两部分，Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。

Supervised Learning Policy Networks是一个13层深度的人工神经元网络，它学习了KGS Go Server里所有的专业棋谱，合共3000万步棋。学习完成后，如果你“问”SL Policy Networks记不记得某个学习过的棋谱里下一步棋应该走哪里，Policy Networks回答有57%和棋谱里一致。呵呵，貌似阿尔法狗狗的记忆力很一般呀！其实不然，剩下43% SL Policy Networks凭“感觉”给出的棋，我猜如果其中有一小半不是太坏的招，那么SL Policy Networks针对学习过的局面给出的下一步棋，有70%左右是不差的！！！但这还没完，阿尔法狗狗还要再自我强化一把，就是Reinforcement Learning Policy Networks。

Reinforcement Learning Policy Networks是SL Policy Networks的加强版，就是拿一个选定的SL Policy Networks不断跟一群随机选择的SL Policy Networks内部比赛，不断修正自己。最终，这个选定的SL Policy Networks被强化到有80%的内部比赛胜率。有没有养一堆毒虫让它们互相厮杀剩下一个的感觉？用一个开源的围棋软件Pachi作为参考对手，阿尔法狗狗用SL Policy Networks胜率是11%，而用优胜劣汰脱颖而出的RL Policy Networks胜率暴涨到85%。

2）Value Networks

Value Networks跟Policy Networks类似，它根据当前局面，预估己方胜率是多少。训练方式也是如出一辙，先用KGS Go Server里的棋谱训练。训练出一批Value Networks之后，它们再互相PK，得到一个预估胜率最准确的Value Networks，叫做Reinforcement Learning Value Networks。我们是不是该对股评专家也采用类似的方式对待呢?嗯，评股，养蛊，谐音啊~

3）蒙特卡罗搜索树（MCTS）

蒙特卡罗是一类随机方法的统称。举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——有限时间内尽量找好的，但不保证是最好的。（注2）

AlphaGo大概就是这样运作的，当前局面有很多下法（平均200个落子点），用Policy Networks把“觉得不错”的落子点优先标出来，然后蒙特卡洛搜索树（MCTS）会开动脑筋，如果狗狗我这样这样落子而对方就会那样那样回应……MCTS对于每个想到的局面，会有一个评分：综合考虑Value Networks评分和一个随机得分（the outcome zL of a random rollout played out），公式是这样子的：

最后AlphaGo会选一个得分（胜率）最高的下法。关于评分，我觉得DeepMind这里并没有讲太清楚，围观群众也不必深究（也可查阅论文原文）。只需要明白狗狗的思路既可，狗狗的世界大概是这样的：

狗狗根据以往的经验（“感觉”）选一些下法，随机也选一些下法，发挥计算力特长搜索评估不同局面，最终选择胜率最高的下法。只要选的下法足够多，就很可能逼近最佳下法。这样看来，狗狗有种“大胆猜测，小心求证”的味道，DeepMind厉害。

从娱乐的角度看，阿尔法狗狗可以看作是：根据经验抓一批人，随机也抓一批人，都杀掉！错杀三千，也许 “那一个”就逃不了！如果给狗狗更多的时间和CPU，就杀三万三十万，“那一个”就更难逃脱了！！！好邪恶好血腥~

从计算机搜索树剪枝算法角度看，AlphaGo是：用Policy Networks来剪枝，用Value Networks模糊估值和随机估值（减少思维盲点）结合，达到在有限时间和硬件条件下，尽量找到好的下法！从结果来看，狗狗在“时间/空间/准确性”方面找到了较好平衡点，赞一个。

最后说说AlphaGo的硬件配置：本次比赛使用单机版本48 CPUs + 8 GPUs，40条线程并行计算；分布式版本用到多台机器，合共1202 CPUs + 176 GPUs,每台机器40线程。

图例：How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.

二、说说战斗（注3）

3月9日，李世石轻敌，首局中盘认输，人类哗然。

3月10日，AlphaGo完胜，其中一步5路尖冲，令聂卫平“脱帽致敬”。李世石承认局面一直落后，完败。

3月12日，李世石在序盘仅仅因一手棋过分便遭到AlphaGo最犀利的反击，从此落入被动局面。三连败，世间感伤。

3月14日，李世石在不利局面下弈出“神之一手”挖，AlphaGo“短路”，小李翻盘。李世石出席发布会时，现场几百名记者齐声高呼李世石的名字，小李是英雄。

3月15日，李世石细棋败北。

纵观这五盘棋，AlphaGo通过大量棋谱/实战训练，令自己“像一个高手”，同时局部精准计算是特长。但AlphaGo仍有程序固有的缺点，一旦遇到bug很容易崩溃，有点像人类的“天才白痴”。另外，AlphaGo人工神经元网络不会针对对手调整自己，或者说，5局棋谱比起之前16万局训练如沧海一粟，对AlphaGo提高和调整几乎可以忽略。

而李世石，赛前对AlphaGo 有轻敌情绪，但小李不断试探和调整策略的努力，屡败屡战和绝地反击的决心，终于逼出AlphaGo的bug，的确配得上“人类代表”。

最终人机大战李世石1比4败北，谷歌的人工智能攻破了人类智力运动最坚实的堡垒，李世石逆境下获得的一胜同样捍卫了人类的尊严。

三、说说未来

AlphaGo的确是人工智能的一大突破。

这次突破可能最重要的影响，就是让我们更清晰的认知了基于机器学习的神经网络的能力，这种能力应该远远超出我们早期的预想。因此对我们人类将来的生活将产生深远的影响。（注4）

个人认为，AlphaGo是人类历史上的一个里程碑。人类从石器时代—铁器青铜时代—蒸汽时代—电气时代—信息时代一直发展过来，石头/金属工具替代了徒手劳作，蒸汽/电气力量替代了人力，计算机替代了简单而繁重的精确数据处理。而现在，AlphaGo用一场胜利宣告人类开始进入新的时代——人工智能时代。这个时代可能会有一些特点：

1）人工智能将代替一些专业性极强但不需要完全准确的工作（能获取完全信息的领域），例如全球语言的同声传译（人类要逆天重建巴别塔呀），例如在一个城市里根据监控图像迅速排查恐怖嫌疑分子等等。

2）人工智能成为人类更有力的助手，人也更依赖人工智能（其实，我们现在已经更依赖智能手机了，囧）。这方面期待人工智能的沟通表达能力做出突破。例如这次AlphaGo一些下法虽然后来证明很厉害，但很多职业棋手当时都看不懂。试想，如果一个医疗人工智能助手给了医生一个精准的治疗方案，但无法说清楚为什么要这样做，医生和病人敢上手术台吗？

3）人类不可替代，至少AlpahGo这一类完全信息人工智能不行。因为还有“不能获取完全信息的领域”。人类可以探索未知领域，并且策略调整和反应很快，人类可以发现原来未知的东西，例如“引力波”。而在人类已经把某个领域探索的比较清楚了，把这些经验整理成的“训练数据”（或者获取训练数据的框架），人工智能才能学习。如果要训练那些数据都不知道，阿尔法狗狗就晕了。让一台机器/物种能创新和顿悟，仍然是神之领域！（科学的尽头是哲学，哲学的尽头真的是神学吗？）

最后，用我昔日同窗赵教授的一个段子作为这篇文章的结尾：

离考试结束还有10分钟了，监考老师说：“要及格的同学抓紧时间啦！”说完便转身走出了教室……对任何一个人，只要脑袋没有进水，都知道要干什么了。对这个简单的情景，不知道阿尔法狗狗会如何反应？哈哈哈~~~

注1：全篇多处引用到DeepMind团队的论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》，不一一标出，在这里一并向DeepMind团队致谢。

注2：作者：苏椰，http://www.zhihu.com/question/20254139/answer/33572009

注3：这里参考了网上各路专业棋手和记者和看法，无法一一列出，一并致谢！有兴趣读者可以上网搜索细品。

注4：刘知青教授接受喆理围棋访问语录。

网友评论

本文标题：AlphaGo人机大战随想 -- 作者: 馋宗通吃

本文链接：https://www.haomeiwen.com/subject/xwhclttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

AlphaGo人机大战随想 -- 作者: 馋宗通吃

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习与模式识别

围棋

围棋

围棋初学者

人工智能