为什么Q-Learning有效?

作者: 海街diary | 来源:发表于2018-02-08 16:27 被阅读58次

    关于增强学习Q(s,a)的理解。

    Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
    关于最优价值函数、最优行为的定义如下:

    最优价值函数 最优行为 最优价值函数的学习准则

    最近在思考,为什么Q-Learning能取得如此好的效果。

    总结关键点如下:

    • Q-Learning是通过直接解Belleman最优方程来求解最优Q值,而不是在无限多的策略π中选择最优的策略的Q值。
    • Belleman最优方程存在条件是要选择最优行为,因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一)。
    • 通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差)。从而,实现了从任意状态开始进行学习,可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62)
    Q-Learning的学习方法

    相关文章

      网友评论

        本文标题:为什么Q-Learning有效?

        本文链接:https://www.haomeiwen.com/subject/ywvttftx.html