强化学习：贝尔曼方程和最优性

作者: Rain师兄 | 来源:发表于2021-09-27 23:21 被阅读0次

强化学习：贝尔曼方程和最优性
几个比较经典的强化学习算法,以及在NLP中的应用
强化学习基础篇（十五）蒙特卡洛预测
强化学习基础篇（十七）时间差分预测
强化学习导论——Dynamic Programming
MDPs基础
深度强化学习-玩游戏
贝尔曼方程(Bellman Equation)的解读
Q学习延伸至DDPG算法公式
费曼学习法+思维导图+CPA注册会计师

1.Bellman Expectation Equation
2.Optimal Policy
3.Bellman Optimality Equation for State-Value Function
4.Bellman Optimality Equation for State-action value Function

什么是贝尔曼期望方程？

image.png

从上面的等式，可以知道，当前状态s的价值可以分解成，即时奖励R[t+1]加上带有折扣因子 𝛾的后一个状态的价值v[S (t+1)]。这仍然代表贝尔曼期望方程。
但是我们现在做的是找到受某个策略支配的特定状态的价值。这就是贝尔曼方程和贝尔曼期望方程的区别。

在数学上，我们可以将贝尔曼期望方程定义为：

image.png

让我们称之为方程 1，上面的等式告诉我们，当我们遵循某个策略 (π) 时，特定状态的价值由即时奖励加上后继状态的价值决定。

类似地，我们可以表达我们的状态-动作值函数（Q-Function）如下：

image.png

我们称其为方程 2。从上面的等式中，我们可以看到，一个状态的 State-Action Value 可以分解为我们在 state(s) 中执行某个 action 并移动到另一个 state(s') 时获得的即时奖励加上折扣过的状态（s'）的状态动作价值函数。

深入研究贝尔曼期望方程：
首先，让我们借助图来理解状态值函数的贝尔曼期望方程：

image.png

此备份图描述了处于特定状态的价值。从状态 s 来看，我们有可能采取这两种行动。每个动作都有一个 Q 值（状态-动作值函数）。我们平均 Q 值，它告诉我们在特定状态下有多好。基本上，它定义了 Vπ(s)。[看公式 1]

在数学上，我们可以将其定义如下：

image.png 这个方程也告诉我们状态-价值函数和状态-动作价值函数之间的联系。现在，让我们看一下 State-Action Value Function 的备份图：

image.png

这个备份图说，假设我们从采取一些行动（a）开始。因此，由于动作（a），代理可能会被环境吹到这些状态中的任何一个。因此，我们要问的问题是，采取行动（a）有多好？

未完

马尔可夫决策过程

从一种状态移动到另一种状态称为Transition.
代理从一种状态移动到另一种状态的概率称为Transition Probability.

马尔科夫性质：

image.png

“Future is Independent of the past given the present”，S[t] 表示当前agent状态， s[t+1] 表示下一状态。上面的等式意味着，从 S[t] 转移到 S[t+1] 完全独立于过去。直觉上意味着我们当前的状态已经捕获了所有过去状态的信息。

马尔科夫过程/马尔科夫链
马尔可夫过程是无记忆的随机过程

网友评论

本文标题：强化学习：贝尔曼方程和最优性

本文链接：https://www.haomeiwen.com/subject/uqeknltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

强化学习：贝尔曼方程和最优性

马尔可夫决策过程

相关文章

强化学习：贝尔曼方程和最优性

几个比较经典的强化学习算法,以及在NLP中的应用

强化学习基础篇（十五）蒙特卡洛预测

强化学习基础篇（十七）时间差分预测

强化学习导论——Dynamic Programming

MDPs基础

深度强化学习-玩游戏

贝尔曼方程(Bellman Equation)的解读

Q学习延伸至DDPG算法公式

费曼学习法+思维导图+CPA注册会计师

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读