美文网首页
Proximal Policy Optimization Alg

Proximal Policy Optimization Alg

作者: 初七123 | 来源:发表于2018-07-10 09:54 被阅读240次

    Introduction

    目前深度强化学习主要有deep Q-learning、policy gradient methods、trust region / natural policy gradient methods
    PPO算法是TRPO的近似解,更容易实现

    Background: Policy Optimization

    Policy Gradient Methods

    At是动作优势值
    这种方法经常出现具有破坏性的梯度更新,见6.1节

    Trust Region Methods
    TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后,回报函数的值不能更差。

    用损失函数代替条件约束


    但是这个系数b对于每个问题都是不一样的

    Clipped Surrogate Objective

    我们提出的目标函数如下

    Adaptive KL Penalty Coefficient

    自适应散度惩罚系数
    我们在实验中发现这种方法比前者要差一些

    Algorithm

    策略网络和值网络共享参数,得到目标函数

    Experiments

    比较目标函数

    比较其它连续值算法

    Atari


    相关文章

      网友评论

          本文标题:Proximal Policy Optimization Alg

          本文链接:https://www.haomeiwen.com/subject/kapxpftx.html