AlphaZero诞生一周年：登上Science封面，完整论文首

作者: 大数据文摘 | 来源:发表于2018-12-07 14:27 被阅读24次

AlphaZero诞生一周年：登上Science封面，完整论文首
登上封面
新冠病毒侵染人体那一刻发生了什么？西湖大学新冠研究登上《Scie
计算机科学导论：第一章
计算机思维
计算机科学与技术
人物秀|范冰冰—做自己的女王
马兜铃酸致癌？那么这些中药都会致癌咯？
摘录：论达尔文与华莱士携手发表的论文
你，也曾登上时代封面～

image

大数据文摘出品

作者：魏子敏、蒋宝尚

阿尔法元（AlphaZero）诞生一周年之际，《科学（Science）》杂志今天以封面文发布了阿尔法元（AlphaZero）经过同行审议的完整论文，Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。

具体来说，DeepMind公开了完整评估后的AlphaZero，不仅回顾、验证了之前的结果，还补充了新的提升：除了围棋，AlphaZero自学了另外两种复杂棋类游戏——国际象棋和日本将棋。

image

论文题目为《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》，一共32页，从细节到参考文献算法，都做了详细介绍。

论文链接：

http://science.sciencemag.org/content/362/6419/1140

《Science》杂志评价称，能够解决多个复杂问题的单一算法，是创建通用机器学习系统，解决实际问题的重要一步。

image

去年的12月7日，DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元（AlphaZero）系统，可以训练自己在棋盘，将棋和其他规则化游戏中实现“超人”技能，所有这些都在一天之内完成，并且无需其他干预，战绩斐然：

4个小时成为了世界级的国际象棋冠军；
2个小时在将棋上达到世界级水平；
8个小时战胜DeepMind引以为傲的围棋选手AlphaGo Zero。

当时，还没有经过同行评议的这篇论文首发在arxiv上，引发了人工智能界的重大探讨。

https://arxiv.org/pdf/1712.01815.pdf

时隔一年，Science杂志以封面发布了经过了同行评议、AlphaZero的最新进展和完整评估。同日，Deepmind也发布了一篇博文宣布这一消息：

今天我们很高兴地发布了AlphaZero的完整评估，该评估发表在Science （开放访问版本）杂志上，该期刊确认并更新了这些初步结果。论文中描述了AlphaZero如何从了解规则开始训练，并快速学习每个游戏成为高级玩家。

博文中，Deepmind还请来了几位AlphaZero的人类对手，比如，20年前，在“人机大战”中被深蓝打败的前世界国际象棋冠军加里卡斯帕罗夫，描述了AlphaZero的棋术。

“我无法掩饰自己的满足感，它非常有活力，就像我自己一样！“

image

20年前与深蓝对弈的加里卡斯帕罗夫👆

image

DeepMind博文链接：

https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

DeepMind提到，传统的国际象棋引擎，包括20年前的深蓝，多依赖于数千个强大的人类玩家辅助的规则，尝试解释游戏中的所有可能性。Shogi程序也是为游戏定制出来的，使用与国际象棋程序类似的搜索引擎和算法。

AlphaZero则采用了一种完全不同的方法，用深度神经网络和通用算法取代了这些手工制作的规则。

image

不仅是国际象棋，这一方式适用于非常多复杂的游戏。一个未经训练的神经网络可以通过强化学习的方式试验，最终经过多次学习，在博弈中自己掌握这个游戏：起初，它完全随机下子走位，但随着时间的推移，系统从胜利、失败中学习，从而调整神经网络的参数，不断优化，直到找到最有利的选择。

文章中提到，每个游戏的难度不同，算法需要训练的时间也不同，例如，系统的掌握象棋需只需训练9个小时，围棋需要的计算时间多一些，需要13天左右。

image

训练有素的网络用于指导搜索算法 - 称为蒙特卡罗树搜索（MCTS），以选择游戏中最有希望的移动。对于每一步，AlphaZero的搜索范围是传统国际象棋搜索中很小的部分。例如，在国际象棋中，它每秒仅需要搜索6万个位置，相比之下，Stockfish需要搜索6千万个位置。

image

当然，AlphaZero算法最大的意义在于，它不仅适用于“下棋”，这个算法的目标是希望能创建出一个智能系统，够解决各种现实问题，另外，在适应环境方面具有灵活性。

灵活适用多环境任务是当前人工智能发展的一个挑战，即只能在特定的领域有非常高的技能水平，如果将任务迁移之后，系统往往不适用了。

AlphaZero能够掌握三种不同的复杂游戏，将来或许会攻破所有游戏。这在一定的程度上改善了AI下一步的发展环境。

DeepMind的Alpha家族从最初的围棋算法AlphaGo，几经进化，形成了一个家族。最新成员AlphaFold，在预测蛋白质的3D结构方面超过了人类。这一研究成功也已经被deepmind发布。

image

AlphaFold相关链接：

https://deepmind.com/blog/alphafold/

网友评论

本文标题：AlphaZero诞生一周年：登上Science封面，完整论文首

本文链接：https://www.haomeiwen.com/subject/tmythqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

AlphaZero诞生一周年：登上Science封面，完整论文首

相关文章