总结

作者: Rain师兄 | 来源:发表于2021-08-13 22:09 被阅读0次

动态规划

动态规划解决的问题是状态概率转移分布已经知道的问题，也就是说只要知道了s,a，下一个状态是什么是可以确定的。

在这个方法中并没有真的与环境进行交互，而只是靠对环境的认识来猜测。

用动态规划来解决强化学习的两种问题：

1.预测问题

方法有迭代策略评估：概率论和决定论。
概率论复杂一点。

预测问题是评估给定的策略。如何评估给定的策略？通过贝尔曼方程来更新价值函数。

策略迭代，价值迭代

策略迭代，给定一个随机策略然后进行评估，得到策略的价值函数，再更新策略，再评估，直到新策略和旧策略相同。这个是对，每一个状态的action进行更新

价值迭代，找到最优价值函数再更新策略，或者找到价值函数，最后选择最优action。

解决更加现实的问题，与环境开始交互了。现实世界中，比如自动驾驶，我们并不知道状态转移的概率。

1.预测问题
于是要采样，采样是完成一次的回合。然后根据G' = R + Gamma*G，得到价值函数
2.控制问题
在随机选取初始状态，或者直接epsilon-greedy。

本文标题：总结

本文链接：https://www.haomeiwen.com/subject/ajijbltx.html