11.基于模型的强化学习

作者: Jabes | 来源:发表于2020-01-13 23:40 被阅读0次

11.基于模型的强化学习
强化学习基础篇（三十三）Dyna算法
12、基于模型的策略学习（Model-based policy
深度强化学习（三）：从Q-Learning到DQN
基于Value的强化学习算法
强化学习基础篇（三十二）基于模型的强化学习算法
AI学习笔记——基于模型(Model Based)的强化学习
10. 最优控制与规划（Optimal Control and
深度学习和强化学习（八）蒙特卡洛树搜索
强化自己的学习能力

基于模型的强化学习（Model-Based Reinforcement Learning）

本节主要介绍基于模型的强化学习，主要包括

基本的基于模型的强化学习算法：如何学习模型，使用模型进行控制
讨论基于模型强化学习算法的不确定性（uncertainity）
讨论基于模型强化学习算法在复杂观测中的情况

一、原始模型(Naive model)

如果我们知道 $f(s_t,a_t)=s_{t+1}$ （或者 $p(s_{t+1}|s_t,a_t)$ 为随机的情况），原始算法最直观的思路是：首先运行策略，通过与环境交互获得数据，利用它们去拟合模型，然后通过之前《最优控制与规划》中介绍的方法选择决策动作。其基本流程如下版本０.５的算法．

image.png

这也是在传统机器人领域做系统识别（system identification）的方法，如果能够有精心设计的动态表征（dynamics representation）以及好的基础策略，将非常有利于提高学习速度。

但是这种简单方法的缺点与模仿学习（Imitiation Learning）一样有分布不一致(distribution mismatch)的问题。比如如下这张图，黄色是真实的奖励函数，其曲线先上后掉落。但是基础策略的探索仅仅局限于前面上升的部分，在这个部分学习到的分布与实际的分布的差距很大。

image.png

联系到在模仿学习中的DAgger算法，其通过人工对新的数据进行再标记，从而修正这种问题。在这里同样可以采用这样的思路，DAgger是数据的标签不准确，而此处是模型不准确。如果我们可以根据实时返回的新数据进行模型的更新，就可以保证数据的正确性，这样就产生如下版本１.5的算法。

image.png

这里还是存在一个问题，正常情况下是要对模型进行一个完整的规划过程，然后将所有的决策动作执行完才进行下次的拟合，也就是个开环（open-loop）规划的形式。由于模型存在误差，则会导致规划的误差累计，从而使得规划后面的数据质量变差。

image.png

二、重新规划（Replan）

基于上面的问题，引入replan，每次规划后的结果只选择第一个动作执行，然后重新进行规划：

image.png

这里的重点就在第三步，在第四步执行了首个动作后，将数据添加到缓存中，就可以进行下一次的规划。Replan进行得越多，对于模型以及单次规划的质量要求就更低。在很多时候，即使只是随机采样（random sampling）都可以达到不错的效果。

三、强化学习中的不确定性（ Uncertainty in model-based RL）

直观解释

先从直觉上来看看不确定性,前面引入了replan版的MBRL算法，看起来似乎是很完美，而在实际试验中会发现它往往效果都比较差，如下图：

image.png

这篇Nagabandi, Kahn, Fearing, L. ICRA 2018的图是在Cheetah环境上跑的结果，前面绿色是纯model-based的结果，它已经陷入了局部最优，而经过distillation处理之后训练一个model-free的模型，会发现它其实比纯model-free效果要好，说明它其实是有学习的潜力在里面的。但是为什么会停止在这个点呢？一个解释是，在前面的规划中由于model存在误差，而由于规划的时候都是在最大化奖励值，这往往会使得模型倾向于乐观估计，这个也类似于DQN的over estimation的原理，从而许多时候会作出相对错误的决策。

image.png

如何求解这个问题？后面的主要方法整体而言是基于这样一个观察：对于同一个点（奖励值的理论均值一样），方差比较高的预测的样本累积奖励都比较高。例如下图中，假设目标点处在悬崖边上，对于两个预测模型来说，理论上做动作的平均奖励都是一样的，但是对于方差高的预测模型，那么它会更有可能掉入悬崖中，获得比较低的奖励，从而样本累积奖励会比较低。因此在同一个点，最大奖励是可能一样的，但是平均大则代表方差比较小。

image.png

所以将uncertainty纳入考虑中，利用平均奖励替代最大奖励更有利于降低方差，既不过于乐观，也不过于悲观。

主要思想

在介绍具体的idea之前，首先介绍两种形式的uncertainty，包括statistical uncertainty和model uncertainty。

image.png

前者通常是描述由于数据的统计指标上的问题导致模型的uncertainty，例如如果数据本身噪音比较大，对于一个自变量它的因变量方差很大，那么学习到的模型对点的预测就会存在很大的uncertainty。

而model uncertainty则是形容模型对自己预测的确信程度，它通常从模型本身的性质得到的，例如Gaussion process就是通过在接触过某个区域的点的数量来得到这个区域的uncertainty。在诸如神经网络之类的模型中通常是没有这一项的。

例如在上面的悬崖的例子中，如果使用神经网络来输出，那么它的statistical uncertainty可能会比较小，也就是说它更倾向于乐观估计，选择迈向终点。但是如果在探索次数比较少的情况下，它的model uncertainty其实会是非常大的。

image.png

神经网络输出层使用entropy
第一个想法，就是通过判断output的entropy，也就是描述output的不确定程度，这个其实就是在描述statistical uncertainty，通过上面的描述也知道，仅仅刻画这种uncertainty是不够的，所以需要找到方法刻画model uncertainty，并将两者结合：

image.png

评估模型的不确定性
一般情况下，我们做估计其实是为了达到这么一个目的：

image.png
也就是说参数和数据可以相互生成，给定一批数据，一定可以导出某个参数，给出这个参数，则一定可以生成对应的一批数据，也就是数据与它的分布一一对应。从强化学习的角度来看，可以理解做closed-loop的过程中，通过策略与环境交互得到数据，利用这些数据修正策略，这分别就是右左两遍的式子，最终网络收敛，也就是数据与参数都趋于稳定，最终等号也就成立了。

在这里，如果希望考量model uncertainty，那么可以将前面一部分摘出来，估计利用数据生成一批参数（也就是一个新的模型）的概率，这也就是model uncertainty。

image.png

然后将它与statistical uncertainty结合在一起，得到模型在不同的参数下的期望概率，这也就是将两种uncertainty结合的方法：。

image.png

模型

接下来就介绍两种实现上面主要思想的模型。

贝叶斯神经网络（Bayesian neural networks）
首先就是BNN，在常规的NN中，节点之间相邻的边都是通过weight进行连接的，它是一个数值。而在BNN中则是通过distribution进行相连，每过一条边相当于过一个分布，利用分布的方差，就可以衡量variance：

image.png

通常而言，其中做的approximation就是引入某种分布，并利用分布输出的乘积表征model uncertainty，如下图中分布的mean表示的就是expected weight，variance表征的就是关于weight的uncertainty。

image.png

Bootstrap ensembles
第二种方法则是引入机器学习中常见的ensembles方法：

image.png

通过多个model进行加权，从而减少方差，因此model uncertainty就可以描述为多个predict的mean：

image.png

而整体刻画也即是output的mean：

image.png
它需要注意的是不同的模型之间是要独立的，故而数据也是要独立的，在传统方法中通常用sampled with replacement的方式，也就是有放回重采样的方式保证independent。而在神经网络中，由于随机初始化，以及SGD本身的随机性，所以model就以及足够独立的，因此也可以忽略此步。

使用uncertainty做规划
在上面提到的两类模型中，都是经过N个部分的平均得到最终结果，故而整体而言的目标函数转化成了：

image.png
因此整体的流程也就可以描述成如下的形式：

image.png
首先从data生成parameter的分布中采样出一组分布，通过model得到transition，相乘得到probability，计算累积reward，经过多次迭代得到平均累积reward。

四、Latent space models

在前面通过uncertainty的角度来提高算法的表达能力，但是通常就直接假设dynamics的learning是能够做得比较好的，但是在复杂场景中的dynamics学习实际是比较困难的：environment可能是partial observability的，state可能是高维且存在较多冗余的。

image.png

所以在这节中则是会考虑如何从结构设计的角度使得model的学习变得更加容易。

Latent space models

回顾MDP的结构图：

image.png

在partial observability的环境中，agent从environment中获取到的observation后，如果需要建模model，首先要处理得到的信息，需要学习observation model，也就是如何从observation中得到与decision相关的state，这个部分是一个高维到低维的映射。接着基于这个observation model进一步学习dynamics model，得到关于environment如何产生transition的过程，并同时学习reward model，得到关于reward的信息。

在上面的描述中，其实可以看出它的核心步骤是如何做从observation到state的mapping，这个也就是latent space model的名称由来，latent space就是表示state space。

从model fitting的目标函数来看，最基本的方式就是对sample得到的transition做maximum likelihood estimation：

image.png

而在latent space models中，将原始的dynamics拆分成observation model与dynamics model，所以这里需要MLE的是两者的乘积：

image.png

这里的expectation是针对这个分布的：

image.png
如何理解这个sample，它其实就相当于是首先从所有的action和observation中学习到一个关于transition的分布，然后利用这个进行sample。

MBRL with latent space models

** Latent space MBRL with dynamic**
针对上面提到的目标函数来看，它的重点在于如何学习这个分布:

image.png

在常规模式中，通常是学习一个approximate posterior :

image.png
作为一个encoder。

第一个点是学习到这个encoder是怎么用到它的？假设现在有t+1步之前的sample，那么就可以用t步前的sample得到state t，从t-1步前的sample得到state t+1，从而得到同一套的state transition，从而能够近似上面的分布。

第二个点是这个posterior的形式，是否需要condition on这么多输入？这个其实也是类似MC与TD的争议，使用越多的输入，信息越多，自然就越准确，但是学习起来就会比较复杂。在本节中处于简单考虑，我们都假设仅仅使用当前的observation作为输入，从而expectation的对象就变成这种形式：

image.png

讨论完它的形式以及如何使用它，接下来就讨论如何如何学习它。同样也是为了简化讨论，这里假设observation model是deterministic的，也就是observation与state是一一对应的，因此encoder就可以直接转化为function的形式，在lecture14中会具体讨论stochastic case的情况。

image.png
故而目标函数也就转化为，其中的每个部分都是differentiable的，这也就可以直接用BP来训练。

image.png
其中第一部分是通过transition进行约束，第二部分则是通过reconstruction的约束保证映射过程可逆，通常其实可以提高学习的稳定性。

** Latent space MBRL with reward model **
在上节中，利用approximate posterior将MDP做了简化，得到了新的目标函数：

image.png

在这节中，则是考虑引入reward model相关的信息，其实也就是在目标中加了reward model相关的学习：

image.png

将它嵌入前面的model-based RL的流程中，这节其实就是考虑到observation的复杂性，利用latent space的方法，将步骤二的fit model变得更容易学习了：

image.png

11.基于模型的强化学习
基于模型的强化学习（Model-Based Reinforcement Learning）本节主要介绍基于模型的...
强化学习基础篇（三十三）Dyna算法
强化学习基础篇（三十三）Dyna算法 1、使用模型进行规划基于模型的强化学习算法的主要成分可以分为学习（Lear...
12、基于模型的策略学习（Model-based policy
主要要点：梳理之前关于model-based强化学习的几个迭代版本探索如何学习基于模型强化学习的全局策略，局部...
深度强化学习（三）：从Q-Learning到DQN
一、无模型的强化学习在上一节中介绍了基于模型的强化学习方法(动态规划)，其中的前提是知道环境的状态转移概率，但在...
基于Value的强化学习算法
在文章强化学习与马尔可夫决策中，介绍了使用马尔可夫决策模型对强化学习的过程进行建模，本篇文章将介绍基于这一模型而引...
强化学习基础篇（三十二）基于模型的强化学习算法
强化学习基础篇（三十二）基于模型的强化学习算法在策略梯度算法中，智能体是直接从经验中去学习策略。之前value-...
AI学习笔记——基于模型(Model Based)的强化学习
之前发表的关于强化学习的文章，无论是基于策略的还是基于价值的还是两者均兼顾的强化学习方法都没有涉及到具体的模型。 ...
10. 最优控制与规划（Optimal Control and
主要内容：介绍基于模型的强化学习如果我们知晓模型的转移概率，如何进行决策控制随机优化方法（Stochasti...
深度学习和强化学习（八）蒙特卡洛树搜索
基于模拟的搜索概述基于强化学习模型进行采样，得到样本数据。但是这是数据不是基于和环境交互获得的真实数据，所以是“...
强化自己的学习能力
强化自己的学习能力，学习模型