Q-learning和DQN是通过学习reward定义Q表中的值,根据自己认为的高价值选行为。Policy Gradients并不会以所谓的Q值为基础, 而是直接输出行为。
面对那种无法穷尽state的场景,Q表会超大导致机器吃不消,而Policy Gradients能在一个连续区间内挑选动作,每次训练只是根据最后得到的reward来加大或缩减部分动作下一次被选择的概率。
value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.【这段话没看懂】
Policy Gradients算法1:REINFORCE
- REINFORCE也叫:基于「整条回合数据」的更新。这种方法是 policy gradient 的最基本方法。
- 个人认为,只是利用了log函数的非线性变化,来使得很小概率获得的奖励被放大化。
如果在Policy(s,a)
很小的情况下, 拿到了一个 大的Reward, 也就是V
, 那-log(Policy(s, a))*V
就会非常大,可以对参数进行一个大幅修改。Policy Gradients.png
网友评论