Model-based RL中有哪些经典的算法？

作者: 小小何先生 | 来源:发表于2020-05-24 13:47 被阅读0次

Model-based RL中有哪些经典的算法？
强化学习
[Chapter 4] Reinforcement Learni
Model-based RL
猩际PTE | 【重大更新】RL 搞定这几点，就能稳上 75 ！
各种RL算法
利用MAGeCK算法处理CRISPR Screen数据
windows下安装强化学习开源库 tf2rl
Efficient Reinforcement Learning
强化学习中的值函数近似算法

在model-based的RL方法中，需要学transition或者reward model，基于这个所学的model，我们做plan。由于我们可以和所学的model交互，这种做法我们会增加采样的效率。而这种方法的缺点在于使得问题变得更加复杂，并且还存在model-bias的问题。

所以大部分的算法都在解决model-bias的问题。如果对基于模型的强化学习算法还不了解的话可以参考我的另一个回答基于模型的强化学习方法学习得到的模型有哪些，具体形式是什么？。

大部分的算法说的在学model，其实是学状态转移概率，有线性的方式，非线性的，随机的等等。

Linear model: $pd f\left(s^{\prime} | s, a\right)=N\left(s^{\prime} | w^{T}\left[\begin{array}{l}s \\ a\end{array}\right], \sigma^{2} I\right)$
Non-linear models:
- Stochastic(e.g. Gaussian Process): $p d f\left(s^{\prime} | s, a\right)=G P\left(s | w^{T}\left[\begin{array}{l}s \\ a\end{array}\right], \sigma^{2} I\right)$
- Deterministic(e.g.,neural network): $s^{\prime} = T(s,a)=NN(s,a)$

算法

随便说几个文章吧，具体想了解的话可以顺着参考文献索引。

model-ensemble trust-region policy optimization

model free的方法具有high sample complexity ，难将其用于real-world。用ensemble的方式来克服model bias。

【ICLR 2018】模型集成的TRPO算法【附代码】

Model-Based Reinforcement Learning via Meta-Policy Optimization

提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model，然后用meta-train的方法学一个policy，使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。

【CoRL 2018】通过元策略优化的MBRL算法

Learning Predictive Models From Observation and Interaction

创新点在于智能体采样很难采样到那些表现性能比较好的样本，就是说有些状态动作对根本就采不到，因为很难去学习这么好的策略，但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的，比如是没有带注释的，他不会有描述说为什么这么做，如果像模仿学习那样利用这些样本的话，还会存在分布漂移的问题(distributional shift)。对于第一个问题作者用图模型做，第二个问题用domain-dependent prior做。

伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型

Model Based Reinforcement Learning for Atari

model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律，从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的，作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法，来解决需要大量交互数据的问题。在所学到的model上得到的policy，用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来，并取得了SOTA效果。

【ICLR2020】基于模型的强化学习算法玩Atari【附代码】