PPO

作者: 六回彬 | 来源:发表于2020-05-03 17:11 被阅读0次

2018-12-20 PPO debug experience
PPO
VPG && TRPO && PPO
PPO算法解析
深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部
在 Shearwater Teric OC 里，Deco PPO
255、第五十七章太有智慧也不是好事——人多智而奇物滋起
从TRPO到PPO
Proximal Policy Optimization(PPO
博士毕业论文开题报告基本要求

On-policy VS Off-policy

On-policy: The agent learned and the agent interacting with the environment is the same.
Off-policy: The agent learned and the agent interacting with the environment is different.

On-policy $\rightarrow$ Off-policy

使用 $\pi_\theta$ 来手机数据，当 $\theta$ 已经更新，我们要重新采样训练数据
目标：用 $\pi_{\theta^\prime}$ 采样到的数据来训练 $\theta$ ， $\theta^\prime$ 是固定的，所有我们可以重复使用采样到的数据

Importance Sampling

$E_{x\sim p\lbrack f(x)\rbrack}$ 代表从分布p中取样本x送入f(x)并求期望，可以近似为从p中取N个 $x^i$ ,然后代入f(x)求平均，即

现在假设我们不能从分布 p 中 sample 数据，只能从分布 q 中 sample，这样不能直接套上述近似。而要用：

即从p分布sample数据变为从q分布sample数据，只需在后面乘上一个weight，即

Importance Sampling 存在的问题：

通过上述公式看出，即便两者期望值一样，但是他们的方差（variance）不同，两式的区别在于红框那里多了一项。

Issue of Importance Sampling

这幅图具体说明了上述问题：蓝线代表 p的分布，绿线代表 q 分布，红线代表f(x)函数，现在我们要从 p、q 分布中 sample 出 x ，投到f(x)中计算。

可以看出 p、q 分布对于f(x)的计算而言差别是很大的。如果sample次数不够多，会造成只sample到每一种分布中，数量比较多的那些样本，比如从p中sample，会容易sample到使f(x)小于0的x；从q中sample，会容易sample到使f(x)大于0的x。

可以看到，sample次数够多的时候，可能就能sample到左边的点，在这里可以人为给它设定一个很大的weight。
这样sample到左边绿线那个点的时候，会得到一个很大的值，这样就会将原本应该是正的f(x)拉回负的。
但这个前提是sample足够多次。如果sample次数不够多，就会造成

有很大的差别，这就是importance sampling的不足。
回到一开始，讲了importance sampling后，我们知道如何由θ变为θ’。只

使用 off-policy，使用梯度做参数更新时要注意的点：

$A^\theta(a_t,s_t)$ 是总计的reward减掉bias，即 $A^\theta(a_t,s_t)=R(\tau^n)-b$ ,就是衡量在状态 $s_t$ 下采取行动用做 $a_t$ 的回报。 $A^{\theta^\prime}(a_t,s_t)$ 是根据sample到的数据计算
因为是 $\pi_{\theta^\prime}$ 与环境做互动，所以 $A^\theta(a_t,s_t)$ 要变为 $A^{\theta^\prime}(a_t,s_t)$
这里我们估计 $\frac{p_\theta(s_t)}{p_{\theta^\prime}(s_t)}=1$ ，因为猜测 state 的出现与θ关系不大，况且这一项本来就无法计算，因为state出现的概率我们是不能控制或估计的。
$\frac{p_\theta(a_t|s_t)}{q_{\theta^\prime}(a_t|s_t)}$ 可以直接计算，由此可以得到新的目标函数：
上标 $\theta^\prime$ 代表跟环境互动的， $\theta$ 是要更新的参数。

PPO / TRPO 算法

$\theta^\prime$ 和 $\theta$ 相差太多，就会导致结果错误
为了防止 $\theta^\prime$ 和 $\theta$ 相差太多，就可以使用PPO算法

在原来的目标函数后再加一项约束值 ,这个约束就像深度学习中的正则化项。
这一项和衡量和的差距，这里的差距指的是actor行为上的差距而不是参数上的差距。
下面这个是TRPO算法：

TRPO和PPO的区别：
TRPO在作梯度上升的时候，只对

求梯度上升，而

只作为一个额外的约束，很难计算。
而PPO的约束是放到式子中减去的一项，比较容易算。
所以，为了方便使用，而且两者性能差不多，就直接使用PPO吧

PPO中和学习率有点类似，需要手动设置。我们可以**设定两个阈值。经过一次参数更新后，查看KL的值

如果大于最大值，说明 $\theta^\prime$ 和 $\theta$ 相差太大，惩罚项没有发挥作用，需要加大 $\beta$ ，加大惩罚。
反之则减小 $\beta$ ，减小惩罚。
绿线代表min()函数的第一项的图像，蓝线代表min()函数的第二项的图像，红线代表最终min()函数的输出结果。
若A>0，则取下图左边红线部分，若A<0则取下图右边红色部分。
这个式子其实就是让和不要差距太大。
- 如果A（advantage function）>0，代表当前的action是好的，所以我们希望越 $p_\theta(s_t|a_t)$ 大越好，但是 $p_\theta(s_t|a_t)$ 和 $p_{\theta^k}(s_t|a_t)$ 不能相差太多，所以设置了一个上界 $1+\epsilon$ ；
- A<0,代表当前的action是不好好的，所以我们希望越 $p_\theta(s_t|a_t)$ 越小越好，所以设置了一个下界 $1-\epsilon$ ；

TRPO / PPO2 等方法的实验效果：

简单说一下，PPO（Clip）是紫色的线，可以看到每个任务中的效果都是名列前茅。

2018-12-20 PPO debug experience
PPO Debug Experience Recently, I need to perform PPO in a...
PPO
On-policy VS Off-policy On-policy: The agent learned and ...
VPG && TRPO && PPO
PPO（Proximal Policy Optimization）是一种解决 PG 算法中学习率不好确定的问题的...
PPO算法解析
在2017年的时候，无论是openai或者是deepmind，在深度强化学习领域都取得了重大突破，而能带来这个突破...
深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部
本文为 AI 研习社编译的技术博客，原标题： Proximal Policy Optimization (PPO...
在 Shearwater Teric OC 里，Deco PPO
在 Shearwater Teric OC 里，Deco PPO2 limit = 1.61 ata是怎么得到的？...
255、第五十七章太有智慧也不是好事——人多智而奇物滋起
https://mp.weixin.qq.com/s/pPo_VnUZYNJmdJ7RJ2jvyw 各位亲爱的朋友...
从TRPO到PPO
TRPO 引出优化目标新策略的回报函数可以分解为旧策略的回报函数+一些其它项其中A是优势函数，证明过程如下若设...
Proximal Policy Optimization(PPO
这两天看了一下李宏毅老师的强化学习课程的前两讲，主要介绍了Policy Gradient算法和Proximal P...
博士毕业论文开题报告基本要求
来源：https://www.lwfdy.com/archives/pPo5kF.html 不仅是本科、研究生需要...

PPO

On-policy VS Off-policy

On-policy $\rightarrow$ Off-policy

Importance Sampling

Importance Sampling 存在的问题：

Issue of Importance Sampling

PPO / TRPO 算法

TRPO / PPO2 等方法的实验效果：

相关文章

2018-12-20 PPO debug experience

PPO

VPG && TRPO && PPO

PPO算法解析

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部

在 Shearwater Teric OC 里，Deco PPO

255、第五十七章太有智慧也不是好事——人多智而奇物滋起

从TRPO到PPO

Proximal Policy Optimization(PPO

博士毕业论文开题报告基本要求

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

PPO

On-policy VS Off-policy

On-policy Off-policy

Importance Sampling

Importance Sampling 存在的问题：

Issue of Importance Sampling

PPO / TRPO 算法

TRPO / PPO2 等方法的实验效果：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

On-policy $\rightarrow$ Off-policy