强烈推荐结合《Reinforcement Learning:An Introduction》Second edition阅读!!!
Monte Carlo Methods
理论上动态规划算法是没有问题的,但实践中却发现它的应用具有很大的限制,这源自于它本身的理论架构。
1、动态规划算法用于求解基于模型的MDP问题。
基于模型指的是基于概率模型,因为动态规划算法需要知道P(a|s),即已知当前状态该采取什么动作或动作的概率分布。
模型的准确性直接影响到强化学习的结果,而精确模型在现实中是非常难实现的。
2、动态规划算法的实现上来说是从未来往回推测现在的决策。
这样的计算方式限制了它的应用。以打游戏为例,我们不可能要求游戏倒着打,不能够预知到未来游戏局面来决策。
5.1 Monte Carlo Prediction
基于上述限制,我们重新审视value的计算公式:
式4_3.png
这里求得是期望,如果不知道概率分布,概率论学过,那我们可以通过样本估计这个值。通过这种方式不需要知道概率模型,也就被称为无模型的强化学习算法。
网友评论