人工智能应用案例学习5

作者: ericblue | 来源:发表于2018-04-03 23:02 被阅读0次

人工智能应用案例学习5
人工智能教育的趋势
人工智能应用案例学习2
人工智能应用案例学习6
人工智能应用案例学习7
人工智能应用案例学习3
人工智能应用案例学习4
人工智能应用案例学习1
人工智能应用案例学习-AlphaGo
漫谈 AI——人工智能技术&应用现状分析

围棋建模方案分析：

通过上篇文章定义可以知道，在看到s之后如何决定a是需要行动指导方法的，对于人类来说就是通过不断的学习练习来获得自我行动的策略规则，借用此思想可以把s和a之间的关系定义为a=f（s），此关系式可以理解为对于每一个状态s都会有一个人类进行落子的a，这样就可以让机器学习人类选手的围棋对弈棋谱，通过不断的寻找，就可以找出a和s的最佳组合（a，s）。

了解到，AlphaGo一开始使用CNN作为f（）来训练（a，s）人类样本，使用神经网络计算每一个当前棋盘状态 s ，所对应的落子向量a的概率分布，越接近1的点表示在这个位置越接近人类的风格，也可以等同于作为最符合人类最佳下棋概率最大的落点。

接下来记 f() 为P(s) ，论文中也叫做Policy Network，也称策略函数。

表示的含义是在状态 s下，进行哪一个落子 a是最接近人类风格。

计算出来的直观结果，对应到棋盘上如下图，可以看到，红色的区域的值有60%，次大值位于右方，是35%（此图来自于AlphaGo论文）

Policy Network

使用CNN模型效果说明：据Aja Huang本人说，这个网络的棋力大概相当于业余6段的人类选手，远远未能超过当时最强的围棋电脑程序CrazyStone。

缺陷简单说明：机器发现现在的状态 s和之前的某一种类型有些类似，输出是一个1*361的向量（1是相关特征属性，361就是19*19棋盘网络），其中有几个值比较大（这些值是指接近概率1的下棋棋盘位置），那么就用这个值当做下一个 a的位置。但是，这种训练方法有局限，可想到的是，如果对战平台上数据本身就都是俗手（俗手是围棋术语。是指无特殊创意的围棋下法。从表面上看，俗手与正常下法所差无几，但实际上是错着，是不高明的下法。俗手的特点是，它看上去有利于己方，其实对对方更加有利。这种下法容易被低水平的棋手屡次采用而不知其非，故称“俗手”。），就会训练出来一个很笨的神经网络。

此处补充说明下CNN怎么实现上面说到的P() ，将 s看做一个19*19的二维图像（具体实现依据论文输入数据是19*19*48（48是这个位置的其他信息，比如气等信息，激励函数用的 tanh）使用CNN进行训练，目标函数就是人类落子向量 a，通过使用海量的数据，不断让计算机接近人类落子的位置。就可以得到一个模拟人类棋手下棋的神经网络。

网友评论

本文标题：人工智能应用案例学习5

本文链接：https://www.haomeiwen.com/subject/nbkocftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

人工智能应用案例学习5

相关文章