1. 最优策略
前面我们已经了解了期望回报,强化学习优化问题就是通过优化方法,来提升策略,从而最大化期望回报,最优策略可以表示为。
2. 贝尔曼方程
我们前面已经知道状态价值函数 因此我们可以得出在线状态价值函数的贝尔曼方程:
同理可以写出在线行为价值函数的贝尔曼方程:
3. 最优价值函数
对于不同的价值函数,我们定义最优价值函数为:
这实际上是最优状态价值函数,我们也有最优动作价值函数:
这二者之间的关系:
也就是最优动作价值,实际上就等于t+1时刻的状态的最优价值的折扣回报,加上一个reward值。
4. 贝尔曼最优方程
在定义的最优价值函数上使用我们的贝尔曼方程,就会得到贝尔曼最优方程。最优状态价值的贝尔曼方程为:
即原来的贝尔曼方程中,我们的,,然后我们对(s,a)的当前回报加上延迟奖励。而贝尔曼最优方程中,我们的直接采用能够使在s状态下,总体回报最大的a。
最优动作价值的贝尔曼方程为:
网友评论