美文网首页
强化学习二——贝尔曼公式

强化学习二——贝尔曼公式

作者: LIKESUNE | 来源:发表于2023-11-13 18:32 被阅读0次

1. 最优策略

前面我们已经了解了期望回报J(\pi) = \int_{\tau}p(\tau|\pi)R(\tau) = E_{\tau\sim\pi}[R(\tau)],强化学习优化问题就是通过优化方法,来提升策略,从而最大化期望回报,最优策略\pi^*可以表示为\pi^* = \underset{\pi}{\operatorname{argmax}}{J(\pi)}

2. 贝尔曼方程

我们前面已经知道状态价值函数v_{\pi}(s) = E_{\tau\sim\pi}[R(\tau)|S_0=s] 因此我们可以得出在线状态价值函数的贝尔曼方程:
\begin{align} v_\pi(s) = &E_{a\sim\pi(·|s),s’\sim{p(·|s,a)}}[R(\tau_{t:T})|S_t = s]\\ =&E_{a\sim\pi(·|s),s’\sim{p(·|s,a)}}[R_t+{\gamma}R_{t+1}+{\gamma^2}R_{t+2}+...+{\gamma^TR_T|S_t=s}]\\ =&E_{a\sim\pi(·|s),s’\sim{p(·|s,a)}}[R_t + {\gamma}(R_{t+1} + {\gamma}R_{t+2}+...+{\gamma^{T-1}R_{T}})|S_t = s]\\ =&E_{a\sim\pi(·|s),s’\sim{p(·|s,a)}}[R_t + {\gamma}R_{\tau_{t+1:T}}|S_t = s]\\ =&E_{A_t\sim\pi(·|S_t),S_{t+1}\sim{p(·|S_t,A_t)}}[R_t+ {\gamma}E_{a\sim\pi(·|s),s’\sim{p(·|s,a)}}[R_t + {\gamma}R_{\tau_{t+1:T}}|S_t = s]]\\ =& E_{A_t\sim\pi(·|S_t),S_{t+1}\sim{p(·|S_t,A_t)}}[R_t + {\gamma}v_{\pi}(S_{t+1}|S_t= s)]\\ =&E_{a\sim{\pi(·|s),s'\sim{p(·|s,a)}}}[r+{\gamma}v_{\pi}(s')] \end{align}
同理可以写出在线行为价值函数的贝尔曼方程:
q_{\pi}(s,a) = E_{s'\sim p({·|s,a)}}[R(s,a) + \gamma E_{a'\sim \pi(·|s')}[q_{\pi(s',a')}]]

3. 最优价值函数

对于不同的价值函数,我们定义最优价值函数为:
v_*(s) = \underset{\pi}{\operatorname{max}v_{\pi}(s)}, {\forall} s{\in} S
这实际上是最优状态价值函数,我们也有最优动作价值函数
q_*(s,a) = \underset{\pi}{max}q_{\pi}(s,a), {\forall}s\in{S},a{\in}A
这二者之间的关系:
q_*(s,a) = E[R_t + {\gamma}v_*(S_{t+1})|S_t = s,A_t = a]
也就是最优动作价值,实际上就等于t+1时刻的状态的最优价值的折扣回报,加上一个reward值。
v_*(s) = \underset{a\in A}{{max}q_*(s,a)}

4. 贝尔曼最优方程

在定义的最优价值函数上使用我们的贝尔曼方程,就会得到贝尔曼最优方程。最优状态价值的贝尔曼方程为:
v_*(s) = \underset{a}{max}E_{s'\sim p(.|s,a)}[R(s,a)+\gamma v_*(s')]
即原来的贝尔曼方程中,我们的a\sim \pi(.|s)s\sim p(.|s,a),然后我们对(s,a)的当前回报加上延迟奖励。而贝尔曼最优方程中,我们的直接采用能够使在s状态下,总体回报最大的a。
最优动作价值的贝尔曼方程为
q_{*}(s,a) = E_{s'\sim p({·|s,a)}}[R(s,a) + {\gamma} \underset{a'}{max}q_*(s',a')]]

相关文章

网友评论

      本文标题:强化学习二——贝尔曼公式

      本文链接:https://www.haomeiwen.com/subject/gqjgydtx.html