读论文Learning Continuous Control P

读论文Learning Continuous Control P

作者: 吕鹏_hunhun | 来源:发表于2016-10-31 11:19 被阅读235次

读论文Learning Continuous Control P
【5分钟 Paper】Continuous Control Wi
Continuous control with deep rei
读论文CONTINUOUS CONTROL WITH DEEP
Matlab LMI工具箱使用教程算例
[CVPR'21] LIIF文章及源码理解
Continuous control with deep Rei
Continuous control with deep rei
[DDPG] Continuous Control with D
2020-12-02学习笔记

论文提出了一个统一框架来处理通过后向传播来学习连续的控制策略，通过在bellman等式的确定性函数中增加噪声因素来支持策略的随机性，论文的算法覆盖范围很广，包括基于model-free或者model-based。

大多数的策略梯度的算法基本上都是通过likelihoodratio的方法（公式我们见过很多次了，几乎所有的策略梯度的论文都是用这个公式打头的）来估算，估算方法除了需要大量的采样外，也有很高的方差。

还有一种办法是通过后向传播的方式来估算策略梯度，如果我们能获得可微的环境的model，我们就可以把策略／model和奖赏联系在一起，通过沿着轨迹后向传播奖赏的办法计算一个策略的梯度。当然我们可以通过一个学习到的Q函数不借助model来反向计算策略梯度，也就是常说的价值梯度算法。

论文提到的方法就是SVG（Stochastic Value Gradientmethods），简单点说，就是通过“re-parameterization”把噪声引入到策略和model中。

首先，MDP中的bellman的价值函数：

在一个确定性策略中，价值函数对状态和参数theta的导数如下：

在DPG算法中，我们其实就是根据上面的公式来计算和更新梯度的（要进一步变形才能一致）。

“re-parameterization”的思路就是，我们可以把一个条件高斯分布写成下面的形式：

这样我们就假设针对一个系统的采样是基于确定性策略和模型夹杂着噪声产生的。原来的公式变形成这样：

通过贝叶斯定律，我们可以推测出噪声这个参数，公式就演变成：

SVG（无限）就是通过有限状态的轨迹中通过后向的迭代计算价值的梯度，在每一个episode中，训练model，然后计算策略梯度，伪代码如下：

SVG（无限）是一个on-policy方法，每次梯度更新后产生新的采样，原来的数据不会再被访问，为了提供数据高效性，experiencerelay和SVG结合生成SVG(1) with Experience Replay(SVG(1)-ER)，算法伪代码如下：

其中引入了重点采样的比率参数。

论文还提供了一个model-free的算法，成为SVG（0）。相当于SVG（1）和DPG的结合，但是策略公式中引入了噪声。使用SVG（1）还是SVG（0）取决于model和价值函数哪个更容易训练和任务的独立性。

最后提一下，算法中的model按照我的理解应该基于有监督的学习根据采样来训练的。价值网络的训练应该跟之前一样。

相关文章

读论文Learning Continuous Control P
论文提出了一个统一框架来处理通过后向传播来学习连续的控制策略，通过在bellman等式的确定性函数中增加噪声...
【5分钟 Paper】Continuous Control Wi
论文题目：Continuous Control With Deep Reinforcement Learning ...
Continuous control with deep rei
Continuous control with deep reinforcement learning Timot...
读论文CONTINUOUS CONTROL WITH DEEP
DPG那篇论文读起来很困难，全部是数学公式（话说简书什么时候支持公式编辑啊，只能贴图片，痛苦），今天读的是后续的一...
Matlab LMI工具箱使用教程算例
论文H∞ state feedback control for generalized continuous/di...
[CVPR'21] LIIF文章及源码理解
文章名为：Learning Continuous Image Representation with Local ...
Continuous control with deep Rei
1. 介绍这篇论文将DQN应用于动作空间是连续的情况。我们知道，DQN的输入通常是高纬度的观测空间（例如图像像素...
Continuous control with deep rei
用确定性策略梯度来解决连续动作学习问题用深度学习作为函数拟合器用经验池去除相关性（使得样本是独立同分布的，而不...
[DDPG] Continuous Control with D
论文链接：https://arxiv.org/abs/1509.02971[https://arxiv.org/a...
2020-12-02学习笔记
读论文：Reinforcement Learning to Rank in E-Commerce Search E...

网友评论

本文标题：读论文Learning Continuous Control P

本文链接：https://www.haomeiwen.com/subject/ncfputtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|读论文Learning Continuous Control P|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！