美文网首页
策略梯度及 PPO 算法

策略梯度及 PPO 算法

作者: 58506fd3fbed | 来源:发表于2020-10-28 23:40 被阅读0次

1. on-policy(同策略): 要learn的agent和环境互动的agent是同一个时,对应的policy。

2. off-policy(异策略): 要learn的agent和环境互动的agent不是同一个时,对应的policy。

3. important sampling(重要性采样): 使用另外一种数据分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡罗方法结合使用。

4. policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。

5. Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。

6. Reward function: 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。

7. Reinforce: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。

相关文章

网友评论

      本文标题:策略梯度及 PPO 算法

      本文链接:https://www.haomeiwen.com/subject/dyhrvktx.html