美文网首页
人工智能应用案例学习7

人工智能应用案例学习7

作者: ericblue | 来源:发表于2018-04-21 07:32 被阅读0次

接上文继续学习建模算法优化改良。

2015年2月,Aja Huang在Deepmind的同事在顶级学术期刊nature上发表的文章 Human-level control through deep reinforcement learning 用神经网络打游戏。这篇文章给AlphaGo提供新的方向:强化学习。

强化学习(Reinforcement learning)是机器学习的一个分支,特别善於控制一只能够在某个环境下自主行动的个体 (autonomous agent),透过和环境之间的互动。(备注:强化学习定义可查阅《人工智能应用案例学习3》)

借用吃豆人游戏进一步说明强化学习建模过程:自主行动的个体就是控制的吃豆人,环境就是迷宫,奖励就是吃到的豆子,行为就是上下左右的操作,强化学习的输入是:

状态 (States) = 环境,例如迷宫的每一格是一个 state。

动作 (Actions) = 在每个状态下,有什么行动是容许的。

奖励 (Rewards) = 进入每个状态时,能带来正面或负面的价值。

输出是:方案 (Policy) = 在每个状态下,你会选择哪个行动?也是一个函数。

所以,需要根据S,A,R,来确定什么样的P是比较好的,通过不断的进行游戏,获得大量的交互数据,可以确定在每一个状态下,进行什么动作能获得最好的分数,而强化学习也就是利用神经网络来拟合这个过程。

参考这种思路,Aja Huang给围棋也设计了一个评价函数v(s) 。此函数的功能是:量化评估围棋局面。使用v(s)可以让我们在MCTS的过程中不用走完全局(走完全盘耗时耗力,效率不高)就发现经必败。

在利用P(s) 走了开局的20步后,如果有一个v(si) (i为当前状态)可以直接判断是否能赢,得到最后的结果r,不需要搜索到底,可以从效率(树剪枝,优化算法时间复杂度)上进一步增加MCTS的威力。

很可惜的,现有的人类棋谱不足以得出这个评价函数(此处并不明白原理,先记录下来待后面深入分析)。所以Aja Huang决定用机器和机器对弈的方法来创造新的对局,也就是AlphaGo的左右互搏。

神经网络的训练过程和结构

先用P(s)和P(s)对弈,比如1万盘,得到1万个新棋谱,加入到训练集中,训练出 P1(s)。

使用P1(s)和P1(s)对弈,得到另1万个新棋谱,加入训练集,训练出P2(s)。

同理,进行多次的类似训练,训练出Pn(s),给最后的新策略命名为Pplus(s)。

使用Pplus(s)和P(s)进行对弈,发现Pplus(s)胜率高,自对弈的方法就被证明是有效的。(之所以自对弈有效,是因为过程中没有放弃过随机,如此一来,大量的计算,就更可能覆盖到更多的可能性,对提高棋力可以产生有效的作用,同时因为概率的问题,不断的自我对弈造成下棋的路数集中)

事实并没有那么美好,Aja Huang发现,使用Pplus(s)来代替P(s)进行MCTS反而棋力会下降。

Aja Huang认为是Pplus(s)走棋的路数太集中(此处记下后续验证尝试),而MCTS需要更加发散的选择才能有更好的效果。

相关文章

  • 人工智能应用案例学习7

    接上文继续学习建模算法优化改良。 2015年2月,Aja Huang在Deepmind的同事在顶级学术期刊natu...

  • 人工智能教育的趋势

    机器学习是实现人工智能的重要方法,也是推动当下人工智能发展的核心驱动力。机器学习处理实际应用案例时,不是“十八般兵...

  • 人工智能应用案例学习2

    记录下与AlphaGo相关的关键概念术语,逐步一个个把定义搞清楚。 围棋是什么:围棋是一种策略性棋类,使用格状棋盘...

  • 人工智能应用案例学习6

    此文也是接续前文继续学习Go Further在githup提供的学习资料,需要不断完善理解建模思想。 围棋建模方案...

  • 人工智能应用案例学习3

    本次学习AlphaGo模拟下棋的策略网络是怎么实现的。 策略网络是使用神经网络模型构建的强化学习能力算法。这个定义...

  • 人工智能应用案例学习4

    AlphaGo策略网络是基于强化学习的深度神经网络来构建的算法模型,这个过程是怎么抽象实现的呢? 感谢Go Fur...

  • 人工智能应用案例学习1

    为了更深入了解人工智能领域知识,开启相关案例学习,就从AlphaGo开始。 AlphaGo(“Go”为...

  • 人工智能应用案例学习5

    围棋建模方案分析: 通过上篇文章定义可以知道,在看到s之后如何决定a是需要行动指导方法的,对于人类来说就是通过不断...

  • 人工智能应用案例学习-AlphaGo

    接上文继续拓展AlphaGo算法学习。 黄士杰(Aja Huang)使用MCTS融合策略和评价函数v(s)的策略是...

  • 漫谈 AI——人工智能技术&应用现状分析

    人工智能技术&应用现状分析 人工智能技术&应用现状分析 引言 人工智能现状 人工智能vs机器学习vs深度学习vs神...

网友评论

      本文标题:人工智能应用案例学习7

      本文链接:https://www.haomeiwen.com/subject/mpcdkftx.html