美文网首页
迷雾探险8 | 策略梯度Policy Gradients

迷雾探险8 | 策略梯度Policy Gradients

作者: 臻甄 | 来源:发表于2018-12-27 23:58 被阅读15次

Q-learning和DQN是通过学习reward定义Q表中的值,根据自己认为的高价值选行为。Policy Gradients并不会以所谓的Q值为基础, 而是直接输出行为。

面对那种无法穷尽state的场景,Q表会超大导致机器吃不消,而Policy Gradients能在一个连续区间内挑选动作,每次训练只是根据最后得到的reward来加大或缩减部分动作下一次被选择的概率。

value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.【这段话没看懂】

Policy Gradients算法1:REINFORCE

  • REINFORCE也叫:基于「整条回合数据」的更新。这种方法是 policy gradient 的最基本方法。
  • 个人认为,只是利用了log函数的非线性变化,来使得很小概率获得的奖励被放大化。
    如果在Policy(s,a)很小的情况下, 拿到了一个 大的Reward, 也就是V, 那-log(Policy(s, a))*V就会非常大,可以对参数进行一个大幅修改。 Policy Gradients.png

相关文章

网友评论

      本文标题:迷雾探险8 | 策略梯度Policy Gradients

      本文链接:https://www.haomeiwen.com/subject/zapflqtx.html