什么是策略?
一个确定性策略定义了一个从行动空间到状态空间的函数。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态下采取每一个动作的概率。
如何学习?
一共有两类方法:
- 通过估计动作-状态函数,预测未来折扣报酬的期望;
- 找到产生最大报酬的策略。
On-policy和off-policy的区别?
On-policy和off-policy学习只与第一类方法有关。
区别是:
- 在on-policy学习中,是从策略产生的样本中学习,并使用它进行控制,边交互边学习。
- 在off-policy学习中,是从不同的行动中学习,例如随机行动,并不需要策略采取行动,致力于重用过去的经验样本。
网友评论