1. on-policy(同策略): 要learn的agent和环境互动的agent是同一个时,对应的policy。
2. off-policy(异策略): 要learn的agent和环境互动的agent不是同一个时,对应的policy。
3. important sampling(重要性采样): 使用另外一种数据分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡罗方法结合使用。
4. policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。
5. Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。
6. Reward function: 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。
7. Reinforce: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。













网友评论