Introduction
目前深度强化学习主要有deep Q-learning、policy gradient methods、trust region / natural policy gradient methods
PPO算法是TRPO的近似解,更容易实现
Background: Policy Optimization
Policy Gradient Methods

At是动作优势值
这种方法经常出现具有破坏性的梯度更新,见6.1节
Trust Region Methods
TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后,回报函数的值不能更差。


用损失函数代替条件约束

但是这个系数b对于每个问题都是不一样的
Clipped Surrogate Objective


我们提出的目标函数如下


Adaptive KL Penalty Coefficient
自适应散度惩罚系数
我们在实验中发现这种方法比前者要差一些

Algorithm
策略网络和值网络共享参数,得到目标函数


Experiments
比较目标函数

比较其它连续值算法

Atari

网友评论