从TRPO到PPO

作者: 初七123 | 来源:发表于2018-08-05 12:03 被阅读2次

TRPO

引出优化目标
新策略的回报函数可以分解为旧策略的回报函数+一些其它项

其中A是优势函数,证明过程如下

若设

可以得到

换了一个积分顺序

如果新旧策略的步长足够小,可以用旧策略的参数代替新策略

并且对L的梯度更新能同时优化η(一阶近似)
但是这个步长是未知的

那么如何获得合适的梯度步长?

论文中给出了一个不等式(暂时不考虑证明)

如果每一次迭代使Mi最大化,则可以保证目标函数递增

因为惩罚系数会使得步长非常小,所以用Dklmax约束代替C

因为Dklmax不便于求解,所以用平均散度代替最大散度

如何求解TRPO?

代替

用Qold代替Aold

新策略参数是未知的,引入重要性采样有

于是优化目标变成

使用 single path 的采样方法时 q(a|s) = π(a|s)old

求解TRPO的步骤为

PPO

OpenAI在提出了TRPO算法后
因为共轭梯度法的效率不高
又提出了一种TRPO的近似算法PPO

不错的资料

https://zhuanlan.zhihu.com/p/30138538
https://zhuanlan.zhihu.com/p/30548114
https://zhuanlan.zhihu.com/p/29918825

相关文章

  • 从TRPO到PPO

    TRPO 引出优化目标新策略的回报函数可以分解为旧策略的回报函数+一些其它项 其中A是优势函数,证明过程如下 若设...

  • VPG && TRPO && PPO

    PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的...

  • 从TRPO到PPO(理论分析与数学证明)

    本文首发于行者AI[https://xingzheai.cn/] 引言 一篇关于强化学习算法的理论推导,或许可以帮...

  • 深入理解TRPO和PPO算法

    最近在整理电脑文件,看到一份当初给同事讲解TRPO算法原理时写的PPT,感觉要比先前那篇写的更加清楚明白,加之这几...

  • 深度强化学习--TRPO与PPO实现

    PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法,它不仅有很好的性能(尤其是对于连续控制问题),...

  • 2018-12-20 PPO debug experience

    PPO Debug Experience Recently, I need to perform PPO in a...

  • PPO

    On-policy VS Off-policy On-policy: The agent learned and ...

  • 20170914——丁酉年七月廿四

    本周从DQN开始,回顾了DPG、DDPG、TRPO。不得不说,深入去理解每一篇paper,才知道各路大神为什...

  • TRPO算法解析

    这俗话说的好呀,这饭要一口一口吃,酒要一口一口喝,路要一步一步走,步子迈大了,喀,容易扯到蛋。这训练模型呢,也是这...

  • PPO算法解析

    在2017年的时候,无论是openai或者是deepmind,在深度强化学习领域都取得了重大突破,而能带来这个突破...

网友评论

    本文标题:从TRPO到PPO

    本文链接:https://www.haomeiwen.com/subject/qovpvftx.html