美文网首页
Lecture 5 Model Free Control

Lecture 5 Model Free Control

作者: BoringFantasy | 来源:发表于2019-10-20 23:17 被阅读0次

    Model Free Control

    Target: 将一个Agent放入完全未知的环境中,如何将奖励最大化。

    image.png image.png

    简单回顾

    image.png
    1. on-policy 学习从该策略下采样产生的样本,同时更新策略。
    2. off-policy 学习其他策略写(经验)产生的样本,用于更细策略。


      image.png
    3. 类似于 GPI,向上评估policy,向下生成新的policy,其中评估算法和更新算法都可以替代后用于model-free.


      image.png
    4. 例如将评估过程换成MC方法,及计算想要评估轨迹的均值取代期望价值,并应贪婪算法更新Policy。


      image.png
    5. 然而在使用贪婪策略更新policy时,需要知道MDP模型,所以用于model-free模型时,使用实际行为函数值Q进行替代,从而可以使用贪婪策略,Q告诉我们在一个状态下,采取各个行为有多好,所以我们需要做的只是选择一个action,然后将其函数值Q(s, a)最大化。
      image.png
    6. 使用MC方法,Q=q_\pi。但是贪婪算法不能保证我们看到全部状态,无法进行准确的估计,我们必须保证看到了环境的全局。
      image.png
    7. 使用MC方法和贪婪方法进行GPI,就会永远只开右边的门,获得+2的奖励,因为你不知道模型,所以就会陷入你认为正确的局部最优。


      image.png
    8. 为了看到全部可能状态,所以用\epsilon-greedy策略。
      image.png
    9. 那么我们采取这个\epsilon-greedy,是否能够得到更好的策略。
    10. 第二行前面是非贪婪选择的值(均值),后面是\epsilon-greedy的结果。
    11. 最后得到Q值,虽然贪婪算法简单,但是的确可以得到更好的结果。


      image.png
      image.png
    12. 实际上不必每次都探索完全部环境再更新,这样可以提高效率。


      image.png

    GLIE

    1. 如何确保或者最好的value function 和 policy。


      image.png
      image.png
      image.png
      image.png

    Sarsa

    1. 使用TD方法每一步估计Q(s,a),用于评估policy,再使用\epsilon-greedy进行更新policy,这种方法就叫Sarsa。
      image.png
      image.png
    image.png image.png
    image.png
    image.png
    image.png
    image.png
    image.png image.png
    image.png
    image.png

    Let we take about off-policy learning

    1. off-policy 的用处
      1.1 用off-policy探索已经探索过得庞大数据库(已经提供最优policy),从而也学习最优策略。
      1.2 获得多重策略,通过学习单一策略。


      image.png
    2. importantce sampling


      image.png
    3. 使用蒙特卡洛方法进行importantce sampling按照完整回合进行更新,每一步都使用了Importance sampling,所以会得到一个无限小的G_t^{\pi/\mu},所以蒙特卡洛方法真的不适合off-policy。
      image.png
    4. 所以你真的需要使用差分时序的方法。利用TD-target改变分配,分配系数是现有策略和环境差异。


      image.png
    5. A_{t+1}是实际世界会采取的活动,A'是遵循目标策略采取的活动。
      image.png
    6. 这就是大名鼎鼎的Q-learning。
    7. 特殊之处就是target policy 和 behaviour policy u 都可以被更新,目标就是一点点的想着Q值最大的方向进行更新。


      image.png
      image.png
      image.png
      image.png
      image.png
      image.png

    相关文章

      网友评论

          本文标题:Lecture 5 Model Free Control

          本文链接:https://www.haomeiwen.com/subject/qaqamctx.html