在model-based
的RL
方法中,需要学transition
或者reward model
,基于这个所学的model
,我们做plan
。由于我们可以和所学的model
交互,这种做法我们会增加采样的效率。而这种方法的缺点在于使得问题变得更加复杂,并且还存在model-bias
的问题。
所以大部分的算法都在解决model-bias
的问题。如果对基于模型的强化学习算法还不了解的话可以参考我的另一个回答基于模型的强化学习方法学习得到的模型有哪些,具体形式是什么?。
大部分的算法说的在学model,其实是学状态转移概率,有线性的方式,非线性的,随机的等等。
-
Linear model:
-
Non-linear models:
- Stochastic(e.g. Gaussian Process):
- Deterministic(e.g.,neural network):
- Stochastic(e.g. Gaussian Process):
算法
随便说几个文章吧,具体想了解的话可以顺着参考文献索引。
- model-ensemble trust-region policy optimization
model free的方法具有high sample complexity ,难将其用于real-world。用ensemble的方式来克服model bias。
- Model-Based Reinforcement Learning via Meta-Policy Optimization
提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用meta-train的方法学一个policy,使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。
- Learning Predictive Models From Observation and Interaction
创新点在于智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的,比如是没有带注释的,他不会有描述说为什么这么做,如果像模仿学习那样利用这些样本的话,还会存在分布漂移的问题(distributional shift)。对于第一个问题作者用图模型做,第二个问题用domain-dependent prior做。
- Model Based Reinforcement Learning for Atari
model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的,作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法,来解决需要大量交互数据的问题。在所学到的model上得到的policy,用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来,并取得了SOTA效果。
网友评论