读论文Deterministic Policy Gradient

作者: 吕鹏_hunhun | 来源:发表于2016-09-27 09:00 被阅读5103次

    近期打算把基于策略梯度的增强学习的几篇论文读了,包括DPG、DDPG、TRPO和A3C,希望能对策略梯度的学习有一个促进。

    第一篇论文是Deterministic Policy Gradient Algorithms,简称DPG,也是deepmind发表的,后面又出了一篇论文DeepDPG,简称DDPG。很多基于策略梯度学习的论文都会选择DDPG算法进行效果比较。

    论文讲了很多理论基础知识,正好学习一下

    1、策略梯度(概率策略)

    在MDP过程中,我们寻找是一个能使累计奖赏最大化的策略,目标函数定义如下:

    策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数:

    这就是策略梯度的公式,出乎意料的简单

    2、Actor-Critic算法

    Actor-Critic算法网上用的最经典的图如下:

    Actor-Critic算法把策略函数和价值函数分别用单独的网络来近似, 策略函数作为Actor来做动作选择,价值函数作为Critic来对策略函数进行评估,根据Critic的输出来更新价值网络和策略网,把论文后面的几个公式放在这里描述一下整个的更新过程:

    3、Off-Policy

    Off-policy就是通过其他的策略形成的采样样本来更新当前的策略,笼统来讲,如果我们考虑greedy算法,off-policy和on-policy的差异没有那么大。论文还是列了一下策略梯度的不同的地方,意思是采样是服从有一个比率的重点采样,但是梯度方向是没有变化的。

    4、Deterministic Policy Gradient Theorem

    论文附录中有证明,当概率策略的方差趋近于0的时候,就是确定性策略,公式9就是公式2的特例

    5、Compatible Function Approximation

    对合理的Q函数近似还是有一定要求的,才能满足模拟函数Q的梯度等于真实Q的梯度

    最后,最重要的迭代公式:

    我不告诉你,我没看懂,如何通过策略函数的梯度来线性近似表示Q函数。

    最后论文通过比较stochastic on-policy actor-critic

    (SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

    off-policy actor-critic (COPDAC)在连续的动作空间的游戏的表现说明DPG的算法效率比较高,效果也不错。

    论文也给出了DPG在ba z八抓鱼中的测试,随着迭代的进行,reward有一直增长的趋势,具体数据看论文吧。

    结论:

    相关文章

      网友评论

      • AlexanderYau:我不太能理解的是为什么使用Mountain Car作为实验,因为Mountain Car这个环境很简单,hard code就能让小车到达顶峰。

      本文标题:读论文Deterministic Policy Gradient

      本文链接:https://www.haomeiwen.com/subject/pmjcyttx.html