David Silver Lecture 4 (2)（Model

作者: FeynmanZhang | 来源:发表于2018-09-05 23:43 被阅读0次

David Silver Lecture 4 (2)（Model
David Silver Lecture 4 (1)（Model
David Silver【Lecture 10】Classic
Lecture 3: Planning by Dynamic P
Lecture 2: Markov Decision Proce
Lecture 1: Introduction to Reinf
Deep Reinforcement Learning简介
Lecture 4: Model-Free Prediction
#David Silver Reinforcement Lear
#David Silver Reinforcement Lear

前言：在本节，我们首先介绍 $TD(\lambda)$ 算法。其次，我们将说明 $TD(\lambda)$ 算法的前向视角（Forward-view）以及后向视角（Backward View）。

1. $TD(\lambda)$ 算法介绍。

上一节中介绍的 $TD(0)$ 算法，指的是只通过当前这一步实际得到的反馈来更新我的value值，即 $V(s)$ 。如果根据后续 $n$ 步实际得到的反馈来更新我的value值的话，则变成了 $TD(n)$ 算法。 $TD(n)$ 算法可以表示成如下形式：

image.png

从图中我们可以看出， $TD(n)$ 中 $n$ 表示的是向后看的深度。如果我们将 $n$ 增加，一直增加到最后的终止步骤，则 $TD$ 算法变成了MC算法。

向后看 $n, (1 \leq n\leq \infty)$ 步的返回值可以计算如下：

image.png

将向后看 $n$ 步的返回值书写成如下形式：

image.png

则 $TD(n)$ 的更新公式如下：

image.png

我们接下来面临的问题是，我们能否有效的综合性的考虑在 $n$ 取不同值时，所有的 $G_t^{(1)}, G_t^{(2)}, \cdots G_t^{(n)}$ ，从而更有效的利用bootstraping 来提升 value function $V(s)$ 呢？为了解决这个问题，引出了 $TD(\lambda)$ 策略。
$TD(\lambda)$ 可以用下图来说明：

image.png

$G_t^{\lambda}$ 考虑了所有的 $n$ 步返回值 \cdots G_t^{(n)}，并为每一个 \cdots G_t^{(n)}分配了一个权重。 $G_t^{\lambda}$ 的计算公式如下所示：

image.png

利用 $G_t^{\lambda}$ ，值函数的更新公式如下所示：

image.png

2. $TD(\lambda)$ 算法的前向视角和后向视角。

在上述提到的 $TD(\lambda)$ 算法中，我们可以发现 $G_t^{(n)}$ 被分配的权重是 $(1-\lambda) \lambda^{n-1}$ ,，权重的大小随着与 $n$ (也可以被认为是时间)的关系以 $\lambda$ 衰减，如下图所示：

image.png

为了计算 $G_t^{\lambda}$ ，我们需要从当前状态和当前时刻开始，向后看去，得到所有的 $G_t^{(n)}, 1\leq n \leq \infty$ 。这就像是一个前向视角，如下图所示：

image.png

而计算 $G_t^{\lambda}$ 的一个显著缺点就是，和MC一样，也需要在完整的序列(episodes)。

为了能够在不完整的序列(episode)的情况下仍能够计算 $G_t^{\lambda}$ ，我们考虑采用称为后向视角的方法。
在介绍后向视角之前，首先介绍一个“资格迹”（Eligibility Traces）的概念：
观察下图，到底是铃声响还是灯亮导致的闪电呢？

image.png
直观上有两种想法：1）从频率的角度取考虑，则铃响的频率更高（3/4），因此可以认为是铃响导致的闪电；2）从时间的角度考虑，则是灯亮导致的闪电。而资格迹同时考虑了上述两种想法，资格迹的计算如下：

image.png
在上图中，

image.png

这就像是一个后向视角，即把当前时刻当作终止时刻，回过头去看之前所有发生的状态，以及发生状态的时间，然后利用过去的状态信息来更新值函数 $V(s)$ ，如下图所示：

image.png

采用资格迹进行更新值函数之后，可以证明出当 $\lambda=0$ 时， $TD(0)$ 的值函数更新方式与采用资格迹进行值函数更新是相同的，即：
$V(s) + \alpha \delta_t E_t(s) \Longleftrightarrow V(s) + \alpha \delta_t$
而当 $\lambda=1$ 时，采用资格迹进行值函数更新等价于每访MC的更新方式，即完全等价于MC的函数值更新。

下面我们讨论一下前向和后向 $TD(\lambda)$ 之间的关系。
假设在一个episode中，只在时刻 $k$ ，访问到了状态 $s$ 一次，则 $TD(\lambda)$ 资格迹的更新如下式：

image.png

则后向 $TD(\lambda)$ 的进行更新的累计在线误差计算如下：

image.png

在上式中我们看出，后向 $TD(\lambda)$ 的更新的累计在线误差实际上等于前向 $TD(\lambda)$ 的更新的误差，再次看一下后向 $TD(\lambda)$ 的更新公式：

image.png
和前向

image.png

我们从上式可以看出，实际上后向 $TD(\lambda)$ 是在一个episode中不断地更新累计误差，但是在最终episode结束时，取得的效果与前向 $TD(\lambda)$ 的效果相同。最终后向 $TD(\lambda)$ 与前向 $TD(\lambda)$ 的关系如下图：

image.png

David Silver Lecture 4 (2)（Model
前言：在本节，我们首先介绍算法。其次，我们将说明算法的前向视角（Forward-view）以及后向视角（Bac...
David Silver Lecture 4 (1)（Model
1. 前言：这些博客是根据david silver 的深度强化学习内容，结合自己的理解以及学习而写成，转载请注...
David Silver【Lecture 10】Classic
一、Games的特点规则简单、概念深刻；千百年的历史；有意义的IQ训练；人工智能的体现；现实世界的封装展...
Lecture 3: Planning by Dynamic P
Author：David Silver Outline Introduction Policy Evaluatio...
Lecture 2: Markov Decision Proce
Author：David Silver Outline Markov Processes Markov Rewar...
Lecture 1: Introduction to Reinf
Author：David Silver Outline Admin About Reinforcement Lea...
Deep Reinforcement Learning简介
David Silver说，AI = RL + DL = Deep Reinforcement Learning他...
Lecture 4: Model-Free Prediction
Author：David Silver Outline Introduction Monte-Carlo Lear...
#David Silver Reinforcement Lear
本节主要介绍 Model-free prediction。从一个未知的MDP中估计出值函数。 1. Monte-C...
#David Silver Reinforcement Lear
这节课主要讲了一些基本概念。强化学习的特点非监督，只需要一个奖励R 奖励是非即时的 agent 的action...

David Silver Lecture 4 (2)（Model

前言：在本节，我们首先介绍 $TD(\lambda)$ 算法。其次，我们将说明 $TD(\lambda)$ 算法的前向视角（Forward-view）以及后向视角（Backward View）。

1. $TD(\lambda)$ 算法介绍。

2. $TD(\lambda)$ 算法的前向视角和后向视角。

相关文章