美文网首页
Reinforcement Learning - Chapter

Reinforcement Learning - Chapter

作者: WangChen100 | 来源:发表于2018-10-07 23:27 被阅读0次

    强烈推荐结合《Reinforcement Learning:An Introduction》Second edition阅读!!!


    Monte Carlo Methods

    理论上动态规划算法是没有问题的,但实践中却发现它的应用具有很大的限制,这源自于它本身的理论架构。
    1、动态规划算法用于求解基于模型的MDP问题。
    基于模型指的是基于概率模型,因为动态规划算法需要知道P(a|s),即已知当前状态该采取什么动作或动作的概率分布。
    模型的准确性直接影响到强化学习的结果,而精确模型在现实中是非常难实现的。
    2、动态规划算法的实现上来说是从未来往回推测现在的决策。
    这样的计算方式限制了它的应用。以打游戏为例,我们不可能要求游戏倒着打,不能够预知到未来游戏局面来决策。

    5.1 Monte Carlo Prediction

    基于上述限制,我们重新审视value的计算公式:


    式4_3.png

    这里求得是期望,如果不知道概率分布,概率论学过,那我们可以通过样本估计这个值。通过这种方式不需要知道概率模型,也就被称为无模型的强化学习算法。

    相关文章

      网友评论

          本文标题:Reinforcement Learning - Chapter

          本文链接:https://www.haomeiwen.com/subject/xjpdgftx.html