本文是我的好友馋宗通吃观战后的感想,我帮忙发布在简书。如需转发请通知我,谢谢。
补充:我这个好友大学专业是计算机相关的,大学期间学过神经网络,写过棋类程序,也算是典型围棋爱好者。
AlphaGo 4:1 李世石,人机大战落幕。估计大部分人和我一样,从赛前对AlphaGo的轻视,到AlphaGo突然战胜人类九段的吃惊,再到李世石屡败屡战后点穴般“神之一手”的惊艳,到最后接受人工智能战胜人类九段的同时,又有一点点的感伤和对未来的担心。
本人吃货一枚,稍微研究过人工智能,现在陪小孩学围棋玩。下面从几方面随便聊聊自己的想法,也算是对这些天自己心路历程的一个记录吧。
一、说说狗狗(注1)
AlphaGo由3部分构成:Policy Networks/Value Networks /蒙特卡罗搜索树(MCTS)。下面简单介绍它们仨。
1)Policy Networks
Policy Networks根据当前局面,评估下一步走哪里?它分为两部分,Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。
Supervised Learning Policy Networks是一个13层深度的人工神经元网络,它学习了KGS Go Server里所有的专业棋谱,合共3000万步棋。学习完成后,如果你“问”SL Policy Networks记不记得某个学习过的棋谱里下一步棋应该走哪里,Policy Networks回答有57%和棋谱里一致。呵呵,貌似阿尔法狗狗的记忆力很一般呀!其实不然,剩下43% SL Policy Networks凭“感觉”给出的棋,我猜如果其中有一小半不是太坏的招,那么SL Policy Networks针对学习过的局面给出的下一步棋,有70%左右是不差的!!!但这还没完,阿尔法狗狗还要再自我强化一把,就是Reinforcement Learning Policy Networks。
Reinforcement Learning Policy Networks是SL Policy Networks的加强版,就是拿一个选定的SL Policy Networks不断跟一群随机选择的SL Policy Networks内部比赛,不断修正自己。最终,这个选定的SL Policy Networks被强化到有80%的内部比赛胜率。有没有养一堆毒虫让它们互相厮杀剩下一个的感觉?用一个开源的围棋软件Pachi作为参考对手,阿尔法狗狗用SL Policy Networks胜率是11%,而用优胜劣汰脱颖而出的RL Policy Networks胜率暴涨到85%。
2)Value Networks
Value Networks跟Policy Networks类似,它根据当前局面,预估己方胜率是多少。训练方式也是如出一辙,先用KGS Go Server里的棋谱训练。训练出一批Value Networks之后,它们再互相PK,得到一个预估胜率最准确的Value Networks,叫做Reinforcement Learning Value Networks。我们是不是该对股评专家也采用类似的方式对待呢?嗯,评股,养蛊,谐音啊~
3)蒙特卡罗搜索树(MCTS)
蒙特卡罗是一类随机方法的统称。举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法——有限时间内尽量找好的,但不保证是最好的。(注2)
AlphaGo大概就是这样运作的,当前局面有很多下法(平均200个落子点),用Policy Networks把“觉得不错”的落子点优先标出来,然后蒙特卡洛搜索树(MCTS)会开动脑筋,如果狗狗我这样这样落子而对方就会那样那样回应……MCTS对于每个想到的局面,会有一个评分:综合考虑Value Networks评分和一个随机得分(the outcome zL of a random rollout played out),公式是这样子的:
最后AlphaGo会选一个得分(胜率)最高的下法。关于评分,我觉得DeepMind这里并没有讲太清楚,围观群众也不必深究(也可查阅论文原文)。只需要明白狗狗的思路既可,狗狗的世界大概是这样的:
狗狗根据以往的经验(“感觉”)选一些下法,随机也选一些下法,发挥计算力特长搜索评估不同局面,最终选择胜率最高的下法。只要选的下法足够多,就很可能逼近最佳下法。这样看来,狗狗有种“大胆猜测,小心求证”的味道,DeepMind厉害。
从娱乐的角度看,阿尔法狗狗可以看作是:根据经验抓一批人,随机也抓一批人,都杀掉!错杀三千,也许 “那一个”就逃不了!如果给狗狗更多的时间和CPU,就杀三万三十万,“那一个”就更难逃脱了!!!好邪恶好血腥~
从计算机搜索树剪枝算法角度看,AlphaGo是:用Policy Networks来剪枝,用Value Networks模糊估值和随机估值(减少思维盲点)结合,达到在有限时间和硬件条件下,尽量找到好的下法!从结果来看,狗狗在“时间/空间/准确性”方面找到了较好平衡点,赞一个。
最后说说AlphaGo的硬件配置: 本次比赛使用单机版本48 CPUs + 8 GPUs,40条线程并行计算;分布式版本用到多台机器,合共1202 CPUs + 176 GPUs,每台机器40线程。
图例:How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.
二、说说战斗(注3)
3月9日,李世石轻敌,首局中盘认输,人类哗然。
3月10日,AlphaGo完胜,其中一步5路尖冲,令聂卫平“脱帽致敬”。李世石承认局面一直落后,完败。
3月12日,李世石在序盘仅仅因一手棋过分便遭到AlphaGo最犀利的反击,从此落入被动局面。三连败,世间感伤。
3月14日,李世石在不利局面下弈出“神之一手”挖,AlphaGo“短路”,小李翻盘。李世石出席发布会时,现场几百名记者齐声高呼李世石的名字,小李是英雄。
3月15日,李世石细棋败北。
纵观这五盘棋,AlphaGo通过大量棋谱/实战训练,令自己“像一个高手”,同时局部精准计算是特长。但AlphaGo仍有程序固有的缺点,一旦遇到bug很容易崩溃,有点像人类的“天才白痴”。另外,AlphaGo人工神经元网络不会针对对手调整自己,或者说,5局棋谱比起之前16万局训练如沧海一粟,对AlphaGo提高和调整几乎可以忽略。
而李世石,赛前对AlphaGo 有轻敌情绪,但小李不断试探和调整策略的努力,屡败屡战和绝地反击的决心,终于逼出AlphaGo的bug,的确配得上“人类代表”。
最终人机大战李世石1比4败北,谷歌的人工智能攻破了人类智力运动最坚实的堡垒,李世石逆境下获得的一胜同样捍卫了人类的尊严。
三、说说未来
AlphaGo的确是人工智能的一大突破。
这次突破可能最重要的影响,就是让我们更清晰的认知了基于机器学习的神经网络的能力,这种能力应该远远超出我们早期的预想。因此对我们人类将来的生活将产生深远的影响。(注4)
个人认为,AlphaGo是人类历史上的一个里程碑。人类从石器时代—铁器青铜时代—蒸汽时代—电气时代—信息时代一直发展过来,石头/金属工具替代了徒手劳作,蒸汽/电气力量替代了人力,计算机替代了简单而繁重的精确数据处理。而现在,AlphaGo用一场胜利宣告人类开始进入新的时代——人工智能时代。这个时代可能会有一些特点:
1)人工智能将代替一些专业性极强但不需要完全准确的工作(能获取完全信息的领域),例如全球语言的同声传译(人类要逆天重建巴别塔呀),例如在一个城市里根据监控图像迅速排查恐怖嫌疑分子等等。
2)人工智能成为人类更有力的助手,人也更依赖人工智能(其实,我们现在已经更依赖智能手机了,囧)。这方面期待人工智能的沟通表达能力做出突破。例如这次AlphaGo一些下法虽然后来证明很厉害,但很多职业棋手当时都看不懂。试想,如果一个医疗人工智能助手给了医生一个精准的治疗方案,但无法说清楚为什么要这样做,医生和病人敢上手术台吗?
3)人类不可替代,至少AlpahGo这一类完全信息人工智能不行。因为还有“不能获取完全信息的领域”。人类可以探索未知领域,并且策略调整和反应很快,人类可以发现原来未知的东西,例如“引力波”。而在人类已经把某个领域探索的比较清楚了,把这些经验整理成的“训练数据”(或者获取训练数据的框架),人工智能才能学习。如果要训练那些数据都不知道,阿尔法狗狗就晕了。让一台机器/物种能创新和顿悟,仍然是神之领域!(科学的尽头是哲学,哲学的尽头真的是神学吗?)
最后,用我昔日同窗赵教授的一个段子作为这篇文章的结尾:
离考试结束还有10分钟了,监考老师说:“要及格的同学抓紧时间啦!”说完便转身走出了教室……对任何一个人,只要脑袋没有进水,都知道要干什么了。对这个简单的情景,不知道阿尔法狗狗会如何反应?哈哈哈~~~
注1:全篇多处引用到DeepMind团队的论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不一一标出,在这里一并向DeepMind团队致谢。
注2:作者:苏椰,http://www.zhihu.com/question/20254139/answer/33572009
注3:这里参考了网上各路专业棋手和记者和看法,无法一一列出,一并致谢!有兴趣读者可以上网搜索细品。
注4:刘知青教授接受喆理围棋访问语录。
网友评论