美文网首页
人工智能应用案例学习5

人工智能应用案例学习5

作者: ericblue | 来源:发表于2018-04-03 23:02 被阅读0次

    围棋建模方案分析:

    通过上篇文章定义可以知道,在看到s之后如何决定a是需要行动指导方法的,对于人类来说就是通过不断的学习练习来获得自我行动的策略规则,借用此思想可以把s和a之间的关系定义为a=f(s),此关系式可以理解为对于每一个状态s都会有一个人类进行落子的a,这样就可以让机器学习人类选手的围棋对弈棋谱,通过不断的寻找,就可以找出a和s的最佳组合(a,s)。

    了解到,AlphaGo一开始使用CNN作为f()来训练(a,s)人类样本,使用神经网络计算每一个当前棋盘状态 s ,所对应的落子向量a的概率分布,越接近1的点表示在这个位置越接近人类的风格,也可以等同于作为最符合人类最佳下棋概率最大的落点。

    接下来记 f() 为P(s) ,论文中也叫做Policy Network,也称策略函数。

    表示的含义是在状态 s下,进行哪一个落子 a是最接近人类风格。

    计算出来的直观结果,对应到棋盘上如下图,可以看到,红色的区域的值有60%,次大值位于右方,是35%(此图来自于AlphaGo论文)

    Policy Network

    使用CNN模型效果说明:据Aja Huang本人说,这个网络的棋力大概相当于业余6段的人类选手,远远未能超过当时最强的围棋电脑程序CrazyStone。

    缺陷简单说明:机器发现现在的状态 s和之前的某一种类型有些类似,输出是一个1*361的向量(1是相关特征属性,361就是19*19棋盘网络),其中有几个值比较大(这些值是指接近概率1的下棋棋盘位置),那么就用这个值当做下一个 a的位置。但是,这种训练方法有局限,可想到的是,如果对战平台上数据本身就都是俗手(俗手是围棋术语。是指无特殊创意的围棋下法。从表面上看,俗手与正常下法所差无几,但实际上是错着,是不高明的下法。俗手的特点是,它看上去有利于己方,其实对对方更加有利。这种下法容易被低水平的棋手屡次采用而不知其非,故称“俗手”。),就会训练出来一个很笨的神经网络。

    此处补充说明下CNN怎么实现上面说到的P() ,将 s看做一个19*19的二维图像(具体实现依据论文输入数据是19*19*48(48是这个位置的其他信息,比如气等信息,激励函数用的 tanh)使用CNN进行训练,目标函数就是人类落子向量 a,通过使用海量的数据,不断让计算机接近人类落子的位置。就可以得到一个模拟人类棋手下棋的神经网络。

    相关文章

      网友评论

          本文标题:人工智能应用案例学习5

          本文链接:https://www.haomeiwen.com/subject/nbkocftx.html