动态规划
动态规划解决的问题是状态概率转移分布已经知道的问题,也就是说只要知道了s,a,下一个状态是什么是可以确定的。
在这个方法中并没有真的与环境进行交互,而只是靠对环境的认识来猜测。
用动态规划来解决强化学习的两种问题:
1.预测问题
方法有迭代策略评估:概率论和决定论。
概率论复杂一点。
预测问题是评估给定的策略。如何评估给定的策略?通过贝尔曼方程来更新价值函数。
2.控制问题
策略迭代,价值迭代
策略迭代,给定一个随机策略然后进行评估,得到策略的价值函数,再更新策略,再评估,直到新策略和旧策略相同。这个是对,每一个状态的action进行更新
价值迭代,找到最优价值函数再更新策略,或者找到价值函数,最后选择最优action。
蒙特卡罗
解决更加现实的问题,与环境开始交互了。现实世界中,比如自动驾驶,我们并不知道状态转移的概率。
1.预测问题
于是要采样,采样是完成一次的回合。然后根据G' = R + Gamma*G,得到价值函数
2.控制问题
在随机选取初始状态,或者直接epsilon-greedy。
网友评论