论文｜ AlphaGo Zero 的模型和算法

作者: 不会停的蜗牛 | 来源:发表于2017-11-10 11:26 被阅读1186次

论文｜ AlphaGo Zero 的模型和算法
AlphaGo Zero 初探
HI v.s. AI，谁迭代更快？|换行
alphago zero初探（一）
在 Windows 下配置使用 LeelaZero和Sabaki
在Windows下配置LeelaZero和Lizzie为你进行复
从AlphaGo Zero看人类经验知识的有效性和局限性
深度学习与金融市场——增强学习是否是终极武器
AlphaGo Zero 最强机器
程序出错，谁的责任？

上一篇文章简单学习了 AlphaGo Zero 的特点：

AlphaGo Zero 初探
http://www.jianshu.com/u/7b67af2e61b3

算法采用自对弈强化学习，不再需要学习人类棋谱数据。
模型由原来的两个模型变成只使用一个神经网络。
今天来学习一下细节。

论文：
Mastering the game of Go without human knowledge

先将围棋问题转化为强化学习过程：

一个棋盘上有 19×19=361 个交叉点可以落子。
每个点有三种状态，白，黑，无子，分别用 1，－1，0表示。
这样一个棋盘的状态是一个长为 361 的向量 S。
下一步的落子行动用 a 表示，也是长为 361 的向量，例如第几个位置为 1 就表示在棋盘上换算后相应的第几行第几列下白子。

这样围棋问题就转化为：任意给定一个状态 S，寻找最优的应对策略 a，使得能够获得棋盘上的最大地盘。

AlphaGo Zero 的网络结构：

是基于 ResNet 的卷积网络，包含 20 或 40 个 Residual Block，加入批量归一化和非线性整流器模块。

输入为 19×19×17 的 0/1 值：包括17个二元特征平面的图像堆栈。
（The input to the neural network is a 19 × 19 × 17 image stack comprising 17 binary feature planes.）

输出为落子概率 p 和一个评估值 v。P 即下一步在每一个可能位置落子的概率，v 表示当前选手在输入的历史局面下的胜率。
（A fully connected linear layer that outputs a vector of size 19×19 + 1 = 362, corresponding to logit probabilities for all intersections and the pass move）