从TRPO到PPO

从TRPO到PPO

作者: 初七123 | 来源:发表于2018-08-05 12:03 被阅读2次

从TRPO到PPO
VPG && TRPO && PPO
从TRPO到PPO（理论分析与数学证明）
深入理解TRPO和PPO算法
深度强化学习--TRPO与PPO实现
2018-12-20 PPO debug experience
PPO
20170914——丁酉年七月廿四
TRPO算法解析
PPO算法解析

TRPO

引出优化目标
新策略的回报函数可以分解为旧策略的回报函数+一些其它项

其中A是优势函数，证明过程如下

若设

可以得到

换了一个积分顺序

如果新旧策略的步长足够小，可以用旧策略的参数代替新策略

并且对L的梯度更新能同时优化η（一阶近似）
但是这个步长是未知的

那么如何获得合适的梯度步长？

论文中给出了一个不等式(暂时不考虑证明)

如果每一次迭代使Mi最大化，则可以保证目标函数递增

因为惩罚系数会使得步长非常小，所以用D_kl^max约束代替C

因为D_kl^max不便于求解，所以用平均散度代替最大散度

如何求解TRPO?

用

代替

用Q_old代替A_old

新策略参数是未知的，引入重要性采样有

于是优化目标变成

使用 single path 的采样方法时 q(a|s) = π(a|s)_old

求解TRPO的步骤为

PPO

OpenAI在提出了TRPO算法后
因为共轭梯度法的效率不高
又提出了一种TRPO的近似算法PPO

不错的资料

https://zhuanlan.zhihu.com/p/30138538
https://zhuanlan.zhihu.com/p/30548114
https://zhuanlan.zhihu.com/p/29918825

相关文章

从TRPO到PPO
TRPO 引出优化目标新策略的回报函数可以分解为旧策略的回报函数+一些其它项其中A是优势函数，证明过程如下若设...
VPG && TRPO && PPO
PPO（Proximal Policy Optimization）是一种解决 PG 算法中学习率不好确定的问题的...
从TRPO到PPO（理论分析与数学证明）
本文首发于行者AI[https://xingzheai.cn/] 引言一篇关于强化学习算法的理论推导，或许可以帮...
深入理解TRPO和PPO算法
最近在整理电脑文件，看到一份当初给同事讲解TRPO算法原理时写的PPT，感觉要比先前那篇写的更加清楚明白，加之这几...
深度强化学习--TRPO与PPO实现
PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法，它不仅有很好的性能（尤其是对于连续控制问题），...
2018-12-20 PPO debug experience
PPO Debug Experience Recently, I need to perform PPO in a...
PPO
On-policy VS Off-policy On-policy: The agent learned and ...
20170914——丁酉年七月廿四
本周从DQN开始，回顾了DPG、DDPG、TRPO。不得不说，深入去理解每一篇paper，才知道各路大神为什...
TRPO算法解析
这俗话说的好呀，这饭要一口一口吃，酒要一口一口喝，路要一步一步走，步子迈大了，喀，容易扯到蛋。这训练模型呢，也是这...
PPO算法解析
在2017年的时候，无论是openai或者是deepmind，在深度强化学习领域都取得了重大突破，而能带来这个突破...

网友评论

萌新的机器学习

本文标题：从TRPO到PPO

本文链接：https://www.haomeiwen.com/subject/qovpvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

萌新的机器学习

热点阅读

萌新的机器学习

关于我们|服务条款|联系我们|从TRPO到PPO|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！