总结

作者: Rain师兄 | 来源:发表于2021-08-13 22:09 被阅读0次

    动态规划

    动态规划解决的问题是状态概率转移分布已经知道的问题,也就是说只要知道了s,a,下一个状态是什么是可以确定的。

    在这个方法中并没有真的与环境进行交互,而只是靠对环境的认识来猜测。

    用动态规划来解决强化学习的两种问题:

    1.预测问题

    方法有迭代策略评估:概率论和决定论。
    概率论复杂一点。

    预测问题是评估给定的策略。如何评估给定的策略?通过贝尔曼方程来更新价值函数。

    2.控制问题

    策略迭代,价值迭代

    策略迭代,给定一个随机策略然后进行评估,得到策略的价值函数,再更新策略,再评估,直到新策略和旧策略相同。这个是对,每一个状态的action进行更新

    价值迭代,找到最优价值函数再更新策略,或者找到价值函数,最后选择最优action。

    蒙特卡罗

    解决更加现实的问题,与环境开始交互了。现实世界中,比如自动驾驶,我们并不知道状态转移的概率。

    1.预测问题
    于是要采样,采样是完成一次的回合。然后根据G' = R + Gamma*G,得到价值函数
    2.控制问题
    在随机选取初始状态,或者直接epsilon-greedy。

    相关文章

      网友评论

          本文标题:总结

          本文链接:https://www.haomeiwen.com/subject/ajijbltx.html