美文网首页
强化学习中on-policy和off-policy方法

强化学习中on-policy和off-policy方法

作者: Jaydu | 来源:发表于2019-04-17 19:42 被阅读0次

    什么是策略?

    一个确定性策略定义了一个从行动空间到状态空间的函数\pi:A\mapsto S。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态s\in S下采取每一个动作a\in A的概率。

    如何学习?

    一共有两类方法:

    1. 通过估计动作-状态函数Q(s,a),预测未来折扣报酬的期望;
    2. 找到产生最大报酬的策略\pi=\pi(a|s)

    On-policy和off-policy的区别?

    On-policy和off-policy学习只与第一类方法有关。

    区别是:

    • 在on-policy学习中,Q(s,a)是从策略产生的样本中学习,并使用它进行控制,边交互边学习。
    • 在off-policy学习中,Q(s,a)是从不同的行动中学习,例如随机行动,并不需要策略采取行动,致力于重用过去的经验样本。

    相关文章

      网友评论

          本文标题:强化学习中on-policy和off-policy方法

          本文链接:https://www.haomeiwen.com/subject/hbhowqtx.html