强化学习导论——Planning and Learning wi

强化学习导论——Planning and Learning wi

作者: 初七123 | 来源:发表于2018-10-04 14:38 被阅读35次

强化学习导论——Planning and Learning wi
机器学习缩略词
强化学习导论（Reinforcement Learning：An
强化学习基础知识详解
reinforcement learning 学习资源推荐
核心课·Level6·Unit2
强化学习——Q-learning
关于「强化学习」和「模仿学习」的两篇文章
Reinforcement Learning in Unity
用一个小游戏入门深度强化学习

两种模型分类

distribution model 输出动作依赖于概率分布
sample model 输出动作是确定的

两种类型的规划算法

state-space planning
特点是以状态为出发点，考虑状态的值函数

plan-space planning includes evolutionary methods and “partial-order planning
以plan为出发点，考虑plan的值函数，本书不讨论这种方法

planning和learning的区别在于：前者用模拟的数据作为样本（实时产生），后者用真实的数据

Dyna Architecture

左边是直接的RL更新，右边是基于模型的规划；右边用真实数据学习Model，然后基于Model产生模拟的数据，再用模拟数据更新Policy

Dyna 伪代码，e、f步骤对应上图的右边

性能测试，对于走迷宫问题，下图给出了每个训练周期后智能体需要多少步才能走出去，可以看到50 planning steps所需要的步数最少

上面的走迷宫例子中，我们还需要考虑的问题是：如果Model的学习出现了错误怎么办？
下图展示了从左侧环境变为右侧环境模型的自我修复

Dyna-Q+ 解决shortcut 迷宫使用了一种启发式的方法：记录每个动作状态对距离最后一次与真实环境交互的时间差，时间越长模型越有可能出现错误，为了鼓励行动策略尝试长期未测试的动作状态对，增加一个额外的奖励，即r+κ√τ

对于Dyna-Q算法来说，f步骤中随机选取a和s可能并不是一个好的选择
所以用误差来进行优先排序，可以提高学习的效率
g里层的循环的意义是：对于误差很大的状态动作对，其前一步的误差也可能很大

回顾一下期望更新和样本更新

期望更新

Q-Learning

他们的区别在于期望更新的误差仅仅取决于Q的正确性，而样本更新还要引入采样的误差，但是它的计算代价比较小，通常期望更新的误差比较小

这表明sample updates对于复杂的问题更有优势

一个清楚模拟的独立轨迹，并对轨迹过程中遇到的状态或状态-动作执行更新。我们把这种产生经验和更新推测采样的方式称为“轨迹采样”。

实验发现on-policy采样的效率比uniform采样的效率高

Real-time dynamic programming 是一种用于DP的on-policy轨迹采样方法
RTDP的更新顺序取决于真实经验的状态顺序或者模拟的轨迹

optimal partial policy的意思是对于相关状态来说是最优的，但是可以为不相关的状态指定任意动作

RTDP的好处是不用访问每一个状态可以保证在相关状态下是最优的，对于状态数量特别大的情况有益处
对比DP和RTDP在跑马场问题上的情况

RTDP展示了on-policy轨迹采样的优势

planning有两种使用的方式：第一种如Dyna中，用于后面的策略提升；而另一种是在决策时planning
第二种方式的意义是：在某个状态下决策动作时进行planning可以进行更深入的思考

这种在决策时候进行planning的方法可以归类为启发式搜索

决策时planning通常结合一个rollout策略，这个策略效果越好，则最后搜索出来的策略越正确
然而rollout策略更好也需要更大的计算代价，下面结合蒙特卡洛树搜索理解rollout

象棋游戏每执行一步，都要进行一次启发式搜索

假设这个启发式搜索的树已经构造好了一部分，每个节点都有一个值表示胜率
Selection：根据Tree Policy选择节点，可以用UCB等算法
Expansion：选到不能选的时候，就开始在当前节点往下扩展，即增加子节点
Simulation：但是我们不知道这个子节点怎么样，所以用rollout策略模型执行这个节点，得到一个游戏胜利或者失败的结果
Backup：把这个结果记录下来，反向更新上面节点的胜率

最后启发式搜索结束，直接选胜率最高的下一步作为实际执行动作

相关文章

强化学习导论——Planning and Learning wi
两种模型分类 distribution model 输出动作依赖于概率分布sample model 输出动作是确定...
机器学习缩略词
Deep RL:Deep Reinforcement Learning,深度强化学习 Paradigm:范式，wi...
强化学习导论（Reinforcement Learning：An
https://blog.csdn.net/Tryantking/article/details/79953734
强化学习基础知识详解
强化学习（Reinforcement Learning）强化学习基本概念强化学习四要素：状态(state)、动...
reinforcement learning 学习资源推荐
reinforcement learning 学习资源推荐强化学习圣经 reinforcement learni...
核心课·Level6·Unit2
PART·1 LEARNING Planning for Retirement1 Walter wants to ...
强化学习——Q-learning
一、什么是Q_learning Q_learning是强化学习中的一个决策算法，如果你还不知道什么是强化学习，可以...
关于「强化学习」和「模仿学习」的两篇文章
模仿学习（Imitation Learning）完全介绍（一）强化学习（Reinforcement Learni...
Reinforcement Learning in Unity
Unity中的强化学习 Reinforcement Learning in Unity 强化学习是一种人工智能技术...
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。强化学习是机器学习的一...

网友评论

本文标题：强化学习导论——Planning and Learning wi

本文链接：https://www.haomeiwen.com/subject/bqflnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|强化学习导论——Planning and Learning wi|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！