Introduction
目前深度强化学习主要有deep Q-learning、policy gradient methods、trust region / natural policy gradient methods
PPO算法是TRPO的近似解,更容易实现
Background: Policy Optimization
Policy Gradient Methods
At是动作优势值
这种方法经常出现具有破坏性的梯度更新,见6.1节
Trust Region Methods
TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后,回报函数的值不能更差。
用损失函数代替条件约束
但是这个系数b对于每个问题都是不一样的
Clipped Surrogate Objective
我们提出的目标函数如下
Adaptive KL Penalty Coefficient
自适应散度惩罚系数
我们在实验中发现这种方法比前者要差一些
Algorithm
策略网络和值网络共享参数,得到目标函数
Experiments
比较目标函数
比较其它连续值算法
Atari
网友评论