美文网首页
强化学习中on-policy和off-policy方法

强化学习中on-policy和off-policy方法

作者: Jaydu | 来源:发表于2019-04-17 19:42 被阅读0次

什么是策略?

一个确定性策略定义了一个从行动空间到状态空间的函数\pi:A\mapsto S。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态s\in S下采取每一个动作a\in A的概率。

如何学习?

一共有两类方法:

  1. 通过估计动作-状态函数Q(s,a),预测未来折扣报酬的期望;
  2. 找到产生最大报酬的策略\pi=\pi(a|s)

On-policy和off-policy的区别?

On-policy和off-policy学习只与第一类方法有关。

区别是:

  • 在on-policy学习中,Q(s,a)是从策略产生的样本中学习,并使用它进行控制,边交互边学习。
  • 在off-policy学习中,Q(s,a)是从不同的行动中学习,例如随机行动,并不需要策略采取行动,致力于重用过去的经验样本。

相关文章

网友评论

      本文标题:强化学习中on-policy和off-policy方法

      本文链接:https://www.haomeiwen.com/subject/hbhowqtx.html