深度强化学习（7）Actor-Critic 算法（1）

深度强化学习（7）Actor-Critic 算法（1）

作者: 数科每日 | 来源:发表于2022-02-13 03:40 被阅读0次

深度强化学习（8）Actor-Critic 算法（2）
深度强化学习（7）Actor-Critic 算法（1）
Keras深度强化学习--A3C实现
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算
带你动手编程的强化学习著作，每行代码都是它的温柔！
深度强化学习-Actor-Critic算法原理和实现
用一个小游戏入门深度强化学习
windows下安装强化学习开源库 tf2rl
2016-05-17：资料+基础
Keras深度强化学习--Actor-Critic实现

本文开始介绍第二个算法 Actor-Critic。主要内容依然参考 Berkeley CS285: Lec6 Actor-Critic Algorithms

Reward To Go & Q Value

在深度强化学习（6） Policy Gradients (2) 中，我们提到了 Reward-To-Go:

$R(\tau)=\sum_{t^{\prime}=t}^{T-1} \gamma^{t} r_{t}$

它代表从t 时刻以后，所有的 Reward 折现( $\gamma$ 为折现率)以后之和。我们也可以用 $\hat{Q}_{t}^{\pi}$ 来表示它。其中：

$\pi$ : 当前的 Policy。
$t$ : 从 $t$ 时刻开始。
$\hat{Q}$ : ^ 代表这个值来源于观察。

image.png

$\hat{Q}_{t}^{\pi}$ : 在 $t$ 时刻, $s_{t}$ 状态下, 采用 Action $a_{t}$ 以后获得的未来 Reward 之和。

如果我们引入期望，就可以把 ^ 给去掉，获得更好的结果：

True Q & Reward to go

那么前面提到的收益函数的梯度，就可以改成

收益函数的梯度

Baseline

上一章，我们说到了减去 Baseline 可以降低算法的 Variance，这里我们也对上面的公式减去 Baseline ：

image.png

其中 $V(S_{i,t})$ 是在 $s_{t}$ 状态下，所有可能 Action 期望, 正好符合 Baseline的要求。

image.png

Value Function

我们先总结一下我们遇到的几个函数:

(1) Q Value，在 $s_{t}$ 时，选择 $a_{t}$ 获得的收益和

Q Function

(2) Value Function，在 $s_{t}$ 时，未来所有可能收益和

Value Function

(3) A Value，在 $s_{t}$ 时，选择 $a_{t}$ 可以获得多少超额收益

Advantage Function

在引入 A Value 以后，收益函数的梯度可以进一步写成：

收益函数的梯度 With A value

如果我们对 $A^{\pi}(s_{i,t}, a_{i,t})$ 估计的越好，真个模型的Variance 就会越小。

我们应该 Fit 那个Value ?

让我们回到 Reinforcement Learing Fitting 的问题上，我们的目标是训练模型，现在我们定义了 $Q^{\pi}, V^{\pi}, A^{\pi}$ 三个Value，但是我们在训练的时候，应该如何获得他们的值呢(fit) ？

image.png

经过替换，我们发现：

image.png

其中 $r(s_{t}, a_{t})$ 可以经过environment 的反馈得到，所以我们只要建立起 $V^{\pi}(s)$ 的函数就可以了。换句话说，我们只要建立起来一个模型，能够根据 $s_{t}$ 得出 $V^{\pi}(s)$ 就可以了。说到找出一个拟合函数，我们自然而然的就想到了神经网络。

至此，在这个思路下，问题就转换成了如何更新 V Value Neural Netork 的参数的深度学习的问题了。

V Fucntion NN

如何估计V Value ?

为了训练一个神经网络计算 $V^{\pi}(s)$ ，我们必须先找到估计 V Value 的办法。最直接的，就是利用现有的 Policy，进行多次模拟。

如果只进行一次模拟就是Monte Carlo 方法：

如果进行多次模拟，就是：

多次模拟的时候，每次模型都需要重置Environment

这样的话，我们就可以组建我们的训练数据：

一次模拟，虽然不够好，但是也不错

对应的 Loss Function 就是：

更好的做法

此外，还有一个办法，可以不借助 Policy ，直接利用 $V$ Fucntion:

image.png

式子中 $\hat{V}_{\phi}^{\pi}({s}_{i, t+1})$ 直接使用， $V(s)$ 计算。到这里，大家可能会有个疑问，我们的目的就是要生成训练数据, 然后用它们训练神经网络。但是现在生成数据的时候，又用到了 $V(s)$ 。这有点循环论证的意思。

我理解是，在训练的过程中，其实我们还是引入了环境中的Ground Truth ： $r(s_{i,t}, a_{i,t})$ 。所以在训练过程中，还是不断的有新的信息被引入进来。 $V(s)$ 会随着训练逐渐变得好起来。

到此，我们讲完了 Actor-Ctritic 的引子，下一节，正式开始讲 Actor-Critic 算法。

总结一下两种 Fit V Value 的方法

Monte Carlo： 利用Monte Carlo，基于现有 Policy和状态，对未来进行模型。这个方法不需要对 V Function 建立模型。
Bootstrap (TD1)： 利用下1步的 Reward，结合一个V Function （神经网络），给出的下一个状态以后的所有 Reward。这个方法需要单独对 V Function 建立模型。

相关文章

深度强化学习（8）Actor-Critic 算法（2）
本文继续深度强化学习（7）Actor-Critic 算法（1）[https://www.jianshu.com/...
深度强化学习（7）Actor-Critic 算法（1）
本文开始介绍第二个算法 Actor-Critic。主要内容依然参考 Berkeley CS285: Lec6 A...
Keras深度强化学习--A3C实现
A3C算法是Google DeepMind提出的一种基于Actor-Critic的深度强化学习算法。A3C是一种轻...
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算
强化学习基础篇（三十一）策略梯度(3)Actor-Critic算法 1.引入Baseline 在使用策略梯度方法更...
带你动手编程的强化学习著作，每行代码都是它的温柔！
如今，深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。由于深度强化学习算法融合了深度学习、统计、信息...
深度强化学习-Actor-Critic算法原理和实现
在之前的几篇文章中，我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种...
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。强化学习是机器学习的一...
windows下安装强化学习开源库 tf2rl
一、TF2RL介绍 TF2RL是一个深度强化学习库，它使用TensorFlow 2.0实现了各种深度强化学习算法。...
2016-05-17：资料+基础
python基础知识面试算法 Pandas 教程 Topic Model 教材深度强化学习 1. 最长回文子串...
Keras深度强化学习--Actor-Critic实现
AC算法（Actor-Critic）架构可以追溯到三、四十年前，其概念最早由Witten在1977年提出，然后B...

网友评论

本文标题：深度强化学习（7）Actor-Critic 算法（1）

本文链接：https://www.haomeiwen.com/subject/ozxflrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|深度强化学习（7）Actor-Critic 算法（1）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！