这篇提出一种Conservative Policy Iteration algorithm,可以在较小步数内,找到近似最优策略(Approximately Optimal Policy),这也是知名的Trust Region Policy Optimisation的前作。
文章第二部分给出一些RL的基本定义:
这里加是为了让
,因为
这样advantage function
还给出了一个 discounted future state distribution 的定义
这样,给定一个 start state distribution , policy optimization 的目标函数
我们展开的话,会发现:
由上很容易推出:
文章第三部分,主要提出policy optimization 面临的两大难题,Figure 3.1 是sparse reward的问题;Figure 3.2是flat plateau gradient的问题。我们讨论Figure 3.2的case。
该图所示MDP有 两个states, initial state distribution 为
,initial policy为
,具体如下
![](https://img.haomeiwen.com/i7660566/6038c505d529e9ff.png)
很显然, state 的self loop为最优解。
我们考虑一个parameterized policy function
对应到此MDP, 是
的矩阵,对目标函数求导:
我们这里肯定是希望增加 ,然而:
第一项, ,
第二项,因为
这样,policy gradient 非常小,学的就太慢了。
本文就是为了解决这种问题而生。
文章考虑以下混合策略:
我们记policy advantage:
给出引理一如下:
证明以上引理,首先,
那么当,
以上倒数第二,三是因为:
根据泰勒展开:
那么
先hold一下,我们给出引理二:
证明:
倒数第三步是因为:
因为initial state distribution 相等,所以
引理二证毕。我们回过头继续证明引理一,对比下发现:
据此提示,我们来求余项:
这里还是用了 的性质。
下面我们这么想, with probability
那么,在前
步一直取
的概率为
,那么
,我们记前
步取
的次数为
, 那么
意味着在前
步
,所以
这里
那么
至此,引理一证毕。
回过头看,引理一说明了什么?
它说明,如果我们用这种混合策略,那么我们就能保证了策略效果提升的下界。
有了以上引理,我们接下来确定混合策略的参数 。
我们知道
那么
我们取
即可确保
好了,有了以上理论基础,我们来看看作者提出的算法。
假设我们有一个advantage function approximator
我们设
即可确保
如何确保?我们用NN来做advantage function approximator
以上loss可通过 的采样获得,需要至少
个轨迹。
如果 则停止更新策略,否则:
那么以上算法,可确保,从而
因此
因为对于任意,所以我们最多需要
,使得
总结算法如下:
-
初始化
,随机策略
,确定
,
-
求出
,用
采样,计算
,更新
-
如果
,结束算法,返回策略
-
否则
;回到2
以上就是Approximately Optimal Approximate RL的内容。
网友评论