迷雾探险8 | 策略梯度Policy Gradients

作者: 臻甄 | 来源:发表于2018-12-27 23:58 被阅读15次

Q-learning和DQN是通过学习reward定义Q表中的值，根据自己认为的高价值选行为。Policy Gradients并不会以所谓的Q值为基础, 而是直接输出行为。

面对那种无法穷尽state的场景，Q表会超大导致机器吃不消，而Policy Gradients能在一个连续区间内挑选动作，每次训练只是根据最后得到的reward来加大或缩减部分动作下一次被选择的概率。

value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.【这段话没看懂】

Policy Gradients算法1：REINFORCE

REINFORCE也叫：基于「整条回合数据」的更新。这种方法是 policy gradient 的最基本方法。
个人认为，只是利用了log函数的非线性变化，来使得很小概率获得的奖励被放大化。
如果在Policy(s,a)很小的情况下, 拿到了一个大的Reward, 也就是V, 那-log(Policy(s, a))*V就会非常大，可以对参数进行一个大幅修改。 Policy Gradients.png