美文网首页强化学习
贝尔曼方程与两类值函数

贝尔曼方程与两类值函数

作者: 明星有灿 | 来源:发表于2019-02-27 16:02 被阅读4次

贝尔曼方程与两类值函数

为了评估一个策略\pi的期望回报,我们定义两个值函数:状态值函数状态-动作值函数

状态值函数

折扣率的引入

有终止状态的情况

总回报的引入方式如下:
G(\tau)=\sum_{t=0}^{T-1} r_{t+1}=\sum_{t=0}^{T-1} r\left(s_{t}, a_{t}, s_{t+1}\right)
假设环境中有一个或多个终止状态,当到达终止状态时,一个智能体和环境的交互就结束了。这一轮的交互过程称为一个回合(episode)试验(trial)

没有终止状态的情况

如果环境中没有终止状态(比如终身学习的机器人),即T=\infty,称为持续性强化学习任务,其总回报也可能是无穷大。

为了解决这个问题,我们可以引入一个折扣率来降低远期回报的比重。折扣回报定义为
G(\tau)=\sum_{t=0}^{T-1} \gamma^{t} r_{t+1}
其中,\gamma代表折扣率,其取值范围在零到一之间。

状态值函数的计算

状态值函数表示在某一状态s下,执行一个策略到最终状态所能够得到的总回报,数学公式使用V^{\pi}(s)来进行表示。

一个策略\pi的总期望回报,可以通过以下公式进行计算:
\begin{aligned} \mathbb{E}_{\tau \sim p(\tau)}[G(\tau)] &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[\mathbb{E}_{\tau \sim p(\tau)} \sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right] ] \\ &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[V^{\pi}(s)\right], \end{aligned}
其中,状态值函数V^{\pi}(s)可以通过如下来计算:
V^{\pi}(s)=\mathbb{E}_{\tau \sim p(\tau)}\left[\sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right]
这个公式的意思是:从状态s出发所能得到的总回报等于以状态s为初始状态的所有可能路径的回报的期望。根据马尔科夫性,V^{\pi}(s)可展开得到:
V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)} \mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]
该公式称为贝尔曼方程。表示当前状态的值函数可以通过下个状态的值函数来计算。

状态动作值函数

初始状态为s并进行动作a,然后执行策略\pi得到的期望总回报,称为状态动作值函数,也称为Q函数。
Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]
该公式表示在状态s下,执行动作a得到的期望回报Q^{\pi}(s, a)为对于执行动作a后的下一可能状态s^{\prime}的值函数V^{\pi}\left(s^{\prime}\right)的折扣期望加上该次获得的奖励r(s,a,s^{\prime})

又由于状态值函数V^{\pi}\left(s\right)Q函数Q^{\pi}(s, a)关于动作a的期望:
V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)}\left[Q^{\pi}(s, a)\right]
结合上述公式,可以将Q函数写为:
Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma \mathbb{E}_{a^{\prime} \sim \pi\left(a^{\prime} | s^{\prime}\right)}\left[Q^{\pi}\left(s^{\prime}, a^{\prime}\right)\right]\right]
这是关于Q函数的贝尔曼方程。

相关文章

  • 贝尔曼方程与两类值函数

    贝尔曼方程与两类值函数 为了评估一个策略的期望回报,我们定义两个值函数:状态值函数和状态-动作值函数。 状态值函数...

  • Q学习延伸至DDPG算法公式

    Q learning原始损失函数定义: Q的贝尔曼方程: 确定性策略的Q定义: 其中的action a就是由确定的...

  • 代价方程

    代价方程(cost function):用于表示预测值与实际值之间误差的函数 如: 通过使代价方程达到最小值,来确...

  • (二)线性回归正规方程

    一、什么是正规地方程 (1)找到合适的预测函数(2)找到预测值与真实值之间的损失函数。 正规方程--最小二乘法就是...

  • MDPs基础

    reinforcement learning (扫盲)从马尔可夫性质一路讲到最优贝尔曼方程,基础好文! https...

  • 机器学习之判别函数

    《机器学习与数据挖掘》课程笔记之判别函数 1.两类 这时,若这些分属于ω1和ω2两类的模式可用一个直线方程d(x)...

  • kalman卡尔曼算法JS简单描述

    先上代码 测试代码 更新后面再理解了一下卡尔曼。预测方程:当前预测值 = f(上个最佳估计)f()是一个函数,对于...

  • 马尔可夫决策过程与贝尔曼方程

      马尔可夫决策过程 (Markov Decision Process,MDP)是序贯决策(sequential ...

  • 常微分方程1

    1、自变量、未知函数及函数的导数(或微分)组成的关系式,就是微分方程。 2、自变量、未知函数均为实值的微分方程称为...

  • day6

    正规方程(normal equation) 解回归问题 对于某些回归问题,用正规方程求解参数θ的最优值(误差函数的...

网友评论

    本文标题:贝尔曼方程与两类值函数

    本文链接:https://www.haomeiwen.com/subject/sfizyqtx.html