美文网首页
4.3 Policy Iteration

4.3 Policy Iteration

作者: rufuss | 来源:发表于2019-03-02 22:37 被阅读0次

    《Reinforcement Learning: An Introduction》笔记
    4.3 Policy Iteration


    image.png

    个人理解,这个算法的主要思路是:
    (a) 首先任意初始化一个策略 \pi(s),和一个值函数v(s)
    (b) 之后,通过Policy Evaluation不断迭代值函数v(s),直到近似收敛(until delta < theta),这一步的依据是式(4.5):

    v_{\pi}的存在性保证了v_k的收敛性。最终得到的值函数v(s)v_{\pi}的近似。
    (c) 得到策略\pi及对应的值函数 v(s) 可以看成是 v_{\pi}(s)后,通过policy improvement得到更优的策略,注意:

    在有限马尔可夫决策过程中是一定可以取到的,因此在此时的值函数下,可以得到一个新的策略,这个策略在值函数V下比原来的策略更好,如果该新策略与原策略不同,则回到Policy Evaluation(b)步骤,确定新策略下的值函数,然后再执行Policy Improvement步骤,确定新值函数下更优的新新策略,如此循环反复,直到某k+1次Improvement后得到的策略函数与第k次得到的策略函数相同。

    相关文章

      网友评论

          本文标题:4.3 Policy Iteration

          本文链接:https://www.haomeiwen.com/subject/dxquuqtx.html