美文网首页
人工智能应用案例学习4

人工智能应用案例学习4

作者: ericblue | 来源:发表于2018-03-28 13:14 被阅读0次

AlphaGo策略网络是基于强化学习的深度神经网络来构建的算法模型,这个过程是怎么抽象实现的呢?

感谢Go Further在githup提供的学习资料,为了方便学习思考,下面内容有摘抄。

围棋问题抽象构造:

插播下策略网络形成过程:通过查看2016年发表的《Mastering the game of Go with deep neural networks and tree search》论文,发现策略网络的演变过程,请看下面原文:

We begin by training a supervised learning (SL) policy network pσ directly from expert human moves.

This provides fast, efficient learning updates with immediate feedback and high-quality gradients. Similar to prior work13,15, we also train a fast policy pπ that can rapidly sample actions during rollouts. Next, we

train a reinforcement learning (RL) policy network pρ that improves the SL policy network by optimizing the final outcome of games of selfplay.This adjusts the policy towards the correct goal of winning games,

rather than maximizing predictive accuracy. Finally, we train a value network vθ that predicts the winner of games played by the RL policynetwork against itself. Our program AlphaGo efficiently combines the policy and value networks with MCTS.

从文中可以看到策略网络一开始是监督学习模式,之后演化为强化学习模式;在策略模型初始阶段是通过人类棋手大量的历史经验学习最佳下棋策略,当掌握人类棋盘高手方法后,调整学习策略为自我对弈,从原来模拟人类下棋方式的准确性调整为使用什么下棋策略如何赢得胜利,类似于从模仿提升到研究新棋法。

接下来研究策略网络是怎么抽象下围棋过程的:棋盘 19 * 19 = 361 个交叉点可供落子,每个点三种状态,白(用1表示),黑(用-1表示),无子(用0表示),用s描述此时棋盘的状态,即棋盘的状态向量记为s(state首字母)。

公式1-1:361个交叉点落子状态

假设状态s下,暂不考虑不能落子的情况, 那么下一步可走的位置空间也是361个。将下一步的落子行动也用一个361维的向量来表示,记为a(action首字母)。

公式1-2:落子行动状态

公式1.2 假设其中1在向量中位置为39,则a表示在棋盘(3,1)位置落白子,3为横坐标,1为列坐标。

有以上定义,我们就把围棋问题转化如下:

任意给定一个状态s,寻找最优的应对策略s ,最终可以获得棋盘上的最大地盘。

看到s ,脑海中就是一个棋盘,上面有很多黑白子。

看到a,脑海中就想象一个人潇洒的落子。

相关文章

  • 人工智能应用案例学习4

    AlphaGo策略网络是基于强化学习的深度神经网络来构建的算法模型,这个过程是怎么抽象实现的呢? 感谢Go Fur...

  • 人工智能教育的趋势

    机器学习是实现人工智能的重要方法,也是推动当下人工智能发展的核心驱动力。机器学习处理实际应用案例时,不是“十八般兵...

  • 人工智能应用案例学习2

    记录下与AlphaGo相关的关键概念术语,逐步一个个把定义搞清楚。 围棋是什么:围棋是一种策略性棋类,使用格状棋盘...

  • 人工智能应用案例学习6

    此文也是接续前文继续学习Go Further在githup提供的学习资料,需要不断完善理解建模思想。 围棋建模方案...

  • 人工智能应用案例学习7

    接上文继续学习建模算法优化改良。 2015年2月,Aja Huang在Deepmind的同事在顶级学术期刊natu...

  • 人工智能应用案例学习3

    本次学习AlphaGo模拟下棋的策略网络是怎么实现的。 策略网络是使用神经网络模型构建的强化学习能力算法。这个定义...

  • 人工智能应用案例学习1

    为了更深入了解人工智能领域知识,开启相关案例学习,就从AlphaGo开始。 AlphaGo(“Go”为...

  • 人工智能应用案例学习5

    围棋建模方案分析: 通过上篇文章定义可以知道,在看到s之后如何决定a是需要行动指导方法的,对于人类来说就是通过不断...

  • 人工智能应用案例学习-AlphaGo

    接上文继续拓展AlphaGo算法学习。 黄士杰(Aja Huang)使用MCTS融合策略和评价函数v(s)的策略是...

  • 漫谈 AI——人工智能技术&应用现状分析

    人工智能技术&应用现状分析 人工智能技术&应用现状分析 引言 人工智能现状 人工智能vs机器学习vs深度学习vs神...

网友评论

      本文标题:人工智能应用案例学习4

      本文链接:https://www.haomeiwen.com/subject/tdqhcftx.html