深度强化学习（8）Actor-Critic 算法（2）

作者: 数科每日 | 来源:发表于2022-02-13 08:11 被阅读0次

深度强化学习（8）Actor-Critic 算法（2）
Keras深度强化学习--A3C实现
windows下安装强化学习开源库 tf2rl
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算
带你动手编程的强化学习著作，每行代码都是它的温柔！
深度强化学习（7）Actor-Critic 算法（1）
深度强化学习-Actor-Critic算法原理和实现
用一个小游戏入门深度强化学习
Keras深度强化学习--Actor-Critic实现
从alphago zero职场中准备多种可能的重要性

本文继续深度强化学习（7）Actor-Critic 算法（1），正式开始讨论 Actor-Critic 。

基于 Monte Carol 方法的 Batch Actor-Critic 算法

Batch Actor-Critic

利用现有 Policy 获取 $(s_{i}, a_{i})$
利用 Monte Carlo 来计算 $V$ (这个方法不需要计算 V 的神经网络，只是利用 Monte Carlo 模拟)。
计算 A Value
利用 A Value 计算梯度
更新 Policy 神经网络中的参数 $\theta$

画红线部分，就是用 $V^{\pi}$ 来 fit $V$ value。

image.png

注意，这里的 $\theta$ 指的是 Policy 网络中的参数，这里Policy 是 $\pi_{\theta}(a|s)$ 。此外， $V^{\pi}$ 也是一个神经网络。

训练 V Function 网络

无限回合的处理

这里有个问题， V Value 的定义是，未来所有的 Reward 的和，可是如何游戏是无限的，就造成了无法求 Reward 的情况。为了解决这个问题，我们引入衰减参数 $\gamma \in [0, 1]$ 。

image.png

一般来说，我们用 $\gamma=0.99$ 。

在计算 Policy Gradient 的时候，我们用

Policy Gradient

基于 Bootstrap 方法的 Online Actor-Critic 算法

Batch Actor-Critic 算法中，只有1个神经网络，就是 Policy ，我们记为 $\pi_{\theta}$ 。而我们这部分介绍的基于Online Actor-Critic 还有另外一个神经网络: $V^{\pi}_{\phi}$ , 它的任务是计算 $V$ Value。

Online Actor-Critic 有两个神经网络

Online Actor-Critic 算法：

Online Actor-Critic

这里的第二步，就是在更新 $V^{\pi}_{\phi}$ 。

计算 y 和 Loss Value

不过，在实际操作上，也有使用一个神经网络，做 $\pi_{\theta}$ , $V^{\pi}_{\phi}$ , 有人认为这可以让他们共享 Featrue，从而达到更好的效果。

Batch 与并行计算

image.png

在实际操作中，我们可以每次多生成几个 Sample ，然后交给不同的Worker，并行计算，这样可以加速训练过程。每次更新 $\theta$ 的过程，也是使用几个Sample 计算的 $\nabla_{\theta} J(\theta)$ 的均值，这样可以减少variance。

在并行的时候，可以使用 synchronize 和 asynchronize 两种模式:

synchronize & asynchronize

Off Policy 的 Actor-Critic 算法

如果你注意到了，在上面的 Actor-Critic 算法中，我们使用的符号都有 $\pi$ 比如 $V^{\pi}_{\phi}$ 和 $A^{\pi}$ , 这其实意味着，这两个值都和Policy 相关。在计算他们的时候，都需要利用当前 Agent 中的Policy。这种系统中有一个唯一 Policy 的算法，在 Reinforcement Learning 中， 称为 On Policy；如果系统中 Policy 不唯一，那就称为 Off Policy。这里我们介绍 Actor-Critic 的Off Policy 版本。

Replay Buffer

我们先介绍一下 Replay Buffer 的概念。在上面算法中，利用 Policy 得到 Action 以后，我们要经过一系列结算，才能得到 $\nabla_{\theta} J(\theta)$ 。现在有个想法，能不能做到类似于有监督学习中，直接利用training dataset 进行训练？如果可以的话，那么就会大大加快训练过程。 Replay Buffer 在某种程度上满足了这个想法，当然，算法也需要做相应的变化。

Replay Buffer

Replay Buffer 中存放的是利用最近的 Policy 计算出来的许多 Transition $(a, s, s^{\prime}, r)$ ，我们的想法是利用这些 Transitions，直接训练 Policy。

Q Function

Replay Buffer 有个缺陷，就是他存放的 $(a, s, s^{\prime}, r)$ 并不都是利用最新的 action 计算出来的，而计算 $V$ 时，是需要全部使用最新的 Action。为了解决这个问题，我们引入 Q Fucntion 来更新 $\nabla_{\theta} J(\theta)$ 的计算方法。

Q Function 计算 Policy 梯度

上面公式不太明白从那里来的话，可以参考 Actor-Critic 算法（1）。

这里有几点要注意：

$a^{\pi}_{i}$ : 这是利用 Policy 计算出来的 Action
$s_{i}$ : 这是从 Replay Buffer 取到的 Sample

类似 $V^{\pi}_{\phi}$ ，我们也需要有一个神经网络，来生成Q值，这里 $Q^{\pi}_{\phi}$ ，它在算法中的训练方法和 $V^{\pi}_{\phi}$ 类似，也可以采用 Bootstrap 的方法。

算法

Off policy AC

利用现有 Policy 生成 Transitions，放入Replay Buffer $R$
从 $R$ 中抽样出一批 Sample
利用sample，计算 $y_{i}$ ，然后更新 $Q^{\pi}_{\phi}$ 参数。具体做法可以参考 $V^{\pi}_{\phi}$ 的Bootstrap 方法。
计算 $\nabla_{\theta} J(\theta)$ 。注意， $a^{\pi}_{i}$ ，是利用 Policy 计算出来的，不是 Transition 中的。
更新Polity 参数 $\theta$

使用 Ctritic 当Baseline

目前，我们两个版本的 Baseline

AC Baseline

优点: low variance 因为使用了Critic，它是基于很多Sample 训练出来的神经网络。
缺点： biased，因为critic 不是完美的。

PG Baseline

优点: unbiased
缺点： high variance 因为是基于单一一个样本点得到的。

我们可以讲两者结合，得到

image.png

优点: low variance 它是基于很多样本训练的网络。
优点: no bias。

Eligibility traces & n-step returns

在算法中，我们有2种办法计算 Advantage：

1. Bootstrap (TD(1))

Bootstrap

优点： low variance
缺点： higher biase 如果 Value Fucntion 有问题，而这常常发生。

2. MC

优点： no bias
缺点： higher variance 因为只使用了一个样本。

3. N Steps

既然如此，我们就考虑，让 Bootstrap 多获得几步的 Reward 也许就可以降低 Variance 了。

n steps

Idea 来源于这张图

N Steps

4. Generalized Advantage Estimation (GAE)

在 n-step 的基础上，可以进一步推出更好的方法 GAE。 GAE 的思想就是使用多个 n的组合，来替代单一的n。对于不同的n ，可以赋予不同的权重：

GAE

Stabebase 3 中 Actor Ctritic 的实现，用的就是 GAE。这里就不多介绍了，也许以后解析 SB3的代码会再看这部分的实现。

深度强化学习（8）Actor-Critic 算法（2）
本文继续深度强化学习（7）Actor-Critic 算法（1）[https://www.jianshu.com/...
Keras深度强化学习--A3C实现
A3C算法是Google DeepMind提出的一种基于Actor-Critic的深度强化学习算法。A3C是一种轻...
windows下安装强化学习开源库 tf2rl
一、TF2RL介绍 TF2RL是一个深度强化学习库，它使用TensorFlow 2.0实现了各种深度强化学习算法。...
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算法 1.引入Baseline 在使用策略梯度方法更...
带你动手编程的强化学习著作，每行代码都是它的温柔！
如今，深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。由于深度强化学习算法融合了深度学习、统计、信息...
深度强化学习（7）Actor-Critic 算法（1）
本文开始介绍第二个算法 Actor-Critic。主要内容依然参考 Berkeley CS285: Lec6 A...
深度强化学习-Actor-Critic算法原理和实现
在之前的几篇文章中，我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种...
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。强化学习是机器学习的一...
Keras深度强化学习--Actor-Critic实现
AC算法（Actor-Critic）架构可以追溯到三、四十年前，其概念最早由Witten在1977年提出，然后B...
从alphago zero职场中准备多种可能的重要性
强化学习（深度强化学习）是目前AI领域的热点研究方向，强化学习相比于常见机器学习算法（监督学习）的一个特点是，是对...