贝尔曼方程与两类值函数
为了评估一个策略的期望回报,我们定义两个值函数:状态值函数和状态-动作值函数。
状态值函数
折扣率的引入
有终止状态的情况
总回报的引入方式如下:
假设环境中有一个或多个终止状态,当到达终止状态时,一个智能体和环境的交互就结束了。这一轮的交互过程称为一个回合(episode)或试验(trial)。
没有终止状态的情况
如果环境中没有终止状态(比如终身学习的机器人),即,称为持续性强化学习任务,其总回报也可能是无穷大。
为了解决这个问题,我们可以引入一个折扣率来降低远期回报的比重。折扣回报定义为
其中,代表折扣率,其取值范围在零到一之间。
状态值函数的计算
状态值函数表示在某一状态下,执行一个策略到最终状态所能够得到的总回报,数学公式使用
来进行表示。
一个策略的总期望回报,可以通过以下公式进行计算:
其中,状态值函数可以通过如下来计算:
这个公式的意思是:从状态出发所能得到的总回报等于以状态
为初始状态的所有可能路径的回报的期望。根据马尔科夫性,
可展开得到:
该公式称为贝尔曼方程。表示当前状态的值函数可以通过下个状态的值函数来计算。
状态动作值函数
初始状态为并进行动作
,然后执行策略
得到的期望总回报,称为状态动作值函数,也称为
函数。
该公式表示在状态下,执行动作
得到的期望回报
为对于执行动作
后的下一可能状态
的值函数
的折扣期望加上该次获得的奖励
。
又由于状态值函数是
函数
关于动作
的期望:
结合上述公式,可以将函数写为:
这是关于函数的贝尔曼方程。
网友评论