强化学习基础篇（六）动态规划之策略迭代（2）

作者: Jabes | 来源:发表于2020-10-15 16:29 被阅读0次

强化学习基础篇（六）动态规划之策略迭代（2）
强化学习基础篇（四）动态规划之迭代策略评估
强化学习基础篇（五）动态规划之策略迭代（1）
强化学习基础篇（七）动态规划之价值迭代
强化学习基础篇（二十三）策略迭代之租车问题
强化学习基础篇（八）动态规划扩展
强化学习基础篇（三）动态规划之基础介绍
强化学习基础篇（十七）时间差分预测
强化学习基础篇（二十四）价值迭代之gamblers问题
强化学习[理论前奏]——动态规划

强化学习基础篇（六）动态规划之策略迭代（2）

1、策略改进（Policy improvement）的理论证明

考虑对一个确定性策略（Deterministic policy），我们可以通过执行贪婪计算不断优化改进策略，即：

在这个过程中每次只使用一次步骤改善状态的动作值函数。即：

如下将证明策略提升定理：

如果值不再改善，则在某一状态下，遵循当前策略采取的行为得到的值将会是最优策略下所能得到的最大值。

上述表示就满足了Bellman最优方程，说明当前策略下的状态价值就是最优状态价值：

对于所有的，都满足，因此是最优策略。

2. 策略迭代算法伪代码

image.png

PS. 算法中函数表示估计值，表示真实值。

3. 策略迭代的修改

策略迭代在每一个迭代步总是先对策略进行值函数估计，直至收敛，那我们能否在策略估计还未收敛时就进行策略改进呢？

可能有如下几种思路：

引入epsilon收敛
简单地在对策略估计迭代次之后就进行策略改进。
在迭代次就进行策略改进，迭代次就等同于值迭代(value iteration)。

4. 广义策略迭代（Generalized Policy Iteration）

策略迭代包括两个同时进行的交互过程，一个使得值函数（value function）与当前策略一致（策略评价 policy evaluation），另一个使得策略相对于当前值函数较贪婪（策略提升 policy improvement）。

在策略迭代中，这两个过程交替进行，每个过程在另一个过程开始之前完成，但这显然不是必需的。例如，值迭代（value iteration）中，在每个策略提升（policy improvement）之间仅执行一次策略评估（policy evaluation）迭代。在异步（asynchronous）动态规划时，评价和提升过程则以更精细的方式交错。只要两个过程都持续更新所有的状态，那么最终结果通常是相同的，即收敛到最优值函数和最优策略。

使用术语——广义策略迭代（Generalized Policy iteration，GPI）来指代让策略评价和策略提升交互的一般概念，而不依赖于两个过程的粒度（granularity）和其他细节。

几乎所有强化学习方法都可以被很好地描述为GPI。也就是说，它们都具有可识别的策略 (identifiable policy）和值函数，策略总是相对于值函数被改善，并且值函数总是趋向策略下的值函数。

the policy always being improved with respect to the value function.

the value function always being driven toward the value function for the policy.

他们的交互过程如下所示：

image.png

如果评价过程和提升过程都稳定下来，即不再发生变化，那么值函数和策略必须都是最优的。这意味着贝尔曼最优方程成立。

还可以用两个目标来考虑GPI中评价和提升过程的相互作用，如上图所示，上面的线代代表目标，下面的线代表目标。目标会发生相互作用，因为两条线不是平行的。从一个策略和一个价值函数开始，每一次箭头向上代表着利用当前策略进行值函数的更新，每一次箭头向下代表着根据更新的值函数贪婪地选择新的策略，说它是贪婪的，是因为每次都采取转移到可能的、状态函数最高的新状态的行为。最终将收敛至最优策略和最优值函数。

强化学习基础篇（六）动态规划之策略迭代（2）
强化学习基础篇（六）动态规划之策略迭代（2） 1、策略改进（Policy improvement）的理论证明考虑...
强化学习基础篇（四）动态规划之迭代策略评估
强化学习基础篇（四）动态规划之迭代策略评估 1、迭代策略评估（Iterative Policy Evaluatio...
强化学习基础篇（五）动态规划之策略迭代（1）
强化学习基础篇（五）动态规划之策略迭代（1） 1、如何改善策略（How to improve a policy） ...
强化学习基础篇（七）动态规划之价值迭代
强化学习基础篇（七）动态规划之价值迭代 1、最优化原理(Principle of optimality) 我们可以...
强化学习基础篇（二十三）策略迭代之租车问题
强化学习基础篇（二十三）策略迭代之租车问题该问题基于《Reinforcement Learning: An In...
强化学习基础篇（八）动态规划扩展
强化学习基础篇（八）动态规划扩展 1、异步动态规划算法（Asynchronous Dynamic Programm...
强化学习基础篇（三）动态规划之基础介绍
强化学习基础篇（三）动态规划之基础介绍强化学习从动物学习行为中的试错方式和优化控制理论两个领域独立发展，最终经贝...
强化学习基础篇（十七）时间差分预测
强化学习基础篇（十七）时间差分预测之前介绍的基于贝尔曼方程求解最优策略的前两种方法：动态规划法和蒙特卡洛法。动态...
强化学习基础篇（二十四）价值迭代之gamblers问题
强化学习基础篇（二十四）价值迭代之gamblers问题该问题基于《Reinforcement Learning:...
强化学习[理论前奏]——动态规划
Preface 本人最近在做强化学习的内容，我发现强化学习基础当中马尔科夫决策过程（MDP）的求解（策略迭代，值迭...