读论文Deterministic Policy Gradient

读论文Deterministic Policy Gradient

作者: 吕鹏_hunhun | 来源:发表于2016-09-27 09:00 被阅读5103次

读论文Deterministic Policy Gradient
【5分钟 Paper】Deterministic Policy
使用Keras和DDPG玩赛车游戏（自动驾驶）
Deterministic Policy Gradient Al
Deterministic Policy Gradient Al
DDPG算法解析
9.进一步讨论Policy Gradients方法
TensorFlow应用实战-18-Policy Gradien
系列论文阅读——Policy Gradient Algorith
系列论文阅读——Policy Gradient Algorith

近期打算把基于策略梯度的增强学习的几篇论文读了，包括DPG、DDPG、TRPO和A3C，希望能对策略梯度的学习有一个促进。

第一篇论文是Deterministic Policy Gradient Algorithms，简称DPG，也是deepmind发表的，后面又出了一篇论文DeepDPG，简称DDPG。很多基于策略梯度学习的论文都会选择DDPG算法进行效果比较。

论文讲了很多理论基础知识，正好学习一下

1、策略梯度（概率策略）

在MDP过程中，我们寻找是一个能使累计奖赏最大化的策略，目标函数定义如下：

策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数：

这就是策略梯度的公式，出乎意料的简单

2、Actor-Critic算法

Actor-Critic算法网上用的最经典的图如下：

Actor-Critic算法把策略函数和价值函数分别用单独的网络来近似，策略函数作为Actor来做动作选择，价值函数作为Critic来对策略函数进行评估，根据Critic的输出来更新价值网络和策略网，把论文后面的几个公式放在这里描述一下整个的更新过程：

3、Off-Policy

Off-policy就是通过其他的策略形成的采样样本来更新当前的策略，笼统来讲，如果我们考虑greedy算法，off-policy和on-policy的差异没有那么大。论文还是列了一下策略梯度的不同的地方，意思是采样是服从有一个比率的重点采样，但是梯度方向是没有变化的。

4、Deterministic Policy Gradient Theorem

论文附录中有证明，当概率策略的方差趋近于0的时候，就是确定性策略，公式9就是公式2的特例

5、Compatible Function Approximation

对合理的Q函数近似还是有一定要求的，才能满足模拟函数Q的梯度等于真实Q的梯度

最后，最重要的迭代公式：

我不告诉你，我没看懂，如何通过策略函数的梯度来线性近似表示Q函数。

最后论文通过比较stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在连续的动作空间的游戏的表现说明DPG的算法效率比较高，效果也不错。

论文也给出了DPG在ba z八抓鱼中的测试，随着迭代的进行，reward有一直增长的趋势，具体数据看论文吧。

结论：

相关文章

读论文Deterministic Policy Gradient
近期打算把基于策略梯度的增强学习的几篇论文读了，包括DPG、DDPG、TRPO和A3C，希望能对策略梯度的学习有一...
【5分钟 Paper】Deterministic Policy
论文题目：Deterministic Policy Gradient Algorithms 所解决的问题？ s...
使用Keras和DDPG玩赛车游戏（自动驾驶）
Using Keras and Deep Deterministic Policy Gradient to pla...
Deterministic Policy Gradient Al
1. 介绍 Policy gradient算法在增强学习中有非常多的应用，尤其是动作空间连续的情况。通常我们使用一...
Deterministic Policy Gradient Al
Background 优化目标随机策略梯度理论这个公式使得随机策略梯度变为简单的计算一个期望 Off-Poli...
DDPG算法解析
直接看名字就能看出DDPG（Deep Deterministic Policy Gradient ）其实就是DPG...
9.进一步讨论Policy Gradients方法
主题：为何Policy Gradient有效将Policy Gradient视为Policy Iteratio...
TensorFlow应用实战-18-Policy Gradien
Policy Gradient算法 policy Gradient算法不止一种。有兴趣的话: 深度增强学习之Po...
系列论文阅读——Policy Gradient Algorith
从DPG到D4PG 前文提到的AC算法，策略函数表示的是，在当前状态下，动作空间的概率分布，然后通过采样选择动作，...
系列论文阅读——Policy Gradient Algorith
发个库存，嘻嘻，这篇主要讲AC类算法演员-评论家算法（Actor-Critic）上文公式中我们采用的累计回报和...

网友评论

AlexanderYau:我不太能理解的是为什么使用Mountain Car作为实验，因为Mountain Car这个环境很简单，hard code就能让小车到达顶峰。

本文标题：读论文Deterministic Policy Gradient

本文链接：https://www.haomeiwen.com/subject/pmjcyttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

深度强化学习（Deep Reinforcement Learning）

热点阅读

DeepMind

深度强化学习（Deep Reinforcement Learning）

关于我们|服务条款|联系我们|读论文Deterministic Policy Gradient|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！