1. 综述
参考:https://zhuanlan.zhihu.com/p/341502874
1.1 一图概览offline RL
参考Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems。
参考作者视频:Video1、Video2
![](https://img.haomeiwen.com/i7720139/628c5c15fc1b649d.png)
上图(a), (b)分别表示online RL和off-policy RL,区别在于是否有一个buffer。(c)表示了offline RL,用一个behavior policy 采样一系列数据,放在buffer,离线训练policy,只是test的时候再跟环境交互。
1.2 Offline RL问题综述
任何off-policy RL的方法都可以用来做offline RL,一共4类方法
(1)Policy Gradient 策略梯度
(2)Approximate dynamic programming 近似动态规划:即求Q函数的通用方法(都用到了bellman方程),包括Q-learning等方法
(3)Actor-Critic algorithms:结合了policy gradient和approximate dynamic programming
(4)Model-based RL:会估计状态转移函数T的(①只学T+planning,②还学了policy的,③使用model扩充数据集)
1.3 Offline RL方法
方法1:基于重要采样的离线RL与离线策略评估
-
重要采样法进行离线策略估计(Off-Policy Evaluation via Importance Sampling):
(1)利用importance sampling,和训练得到的proposal distribution求真实π无偏估计。
(2)缺点:variance太高了。
(3)改进:doubly robust estimator -
离线策略梯度(The Off-Policy Policy Gradient)
(1)直接让上述最原始的importance sampling估计出来的J(πθ)
对θ求导,并且把accumulated reward替换成baseline(Advantage),可以得到policy gradient(证明推导都跟PG一毛一样)
(2)限制让behavior policy 和target policy 尽可能相似,加一个constraint -
近似的离线策略梯度(Approximate Off-Policy Policy Gradients)
(1)计算Q的时候state的分布是离线采样得到的,但action仍然是πθ给出的。 -
Marginalized Importance Sampling:比较复杂,跳过
image.png
-
方法1的挑战和问题
(1)上面几个方法还很少在offline RL里用,大多还是用在off-policy里
(2)Importance sampling 已经有很高的variance了,并且时序下累积,那么这个variance就会exponential blowup. 因此适用于当policy和behavior policy相差不大的情况.
(3)Importance sampling的主要挑战有3个:① Behavior policy是suboptimal;②State action space 的高维度;③The effective horizon of the task。
方法2:基于动态规划法的离线RL
两步走:step1从Dataset中学出一个Q函数,step2通过Q函数来做policy的提升
-
使用线性函数估计Q函数(传统做法)
(1)尽管现在都喜欢用神经网络来参数化Q函数,但是线性函数估计Q函数是一个offline RL算法的重要组成。仅需学习一个线性参数。
(2)仅适用于有限的action和state的情形下估计。可使用的解法
①贝尔曼残差最小化法(Bellman residual minimization)
②最小二程不动点估计法(Least-square fixed point approximation)
③最小二程时序差分Q-learning(Least squares temporal difference Q-learning (LSTD-Q))
④最小二程策略迭代(Least squares policy iteration (LSPI)) -
Distributional Shift in Offline RL Learing via Dynamic Programing 离线强化学习的分布偏移问题
(1)分析一下出现了偏移的分布:test的时候state和action分布都shift了,train的时候state分布没偏移,但action的分布偏移了,不一定在Dateset中,Q估计就不准。
(2)减少这种action分布偏移的方法是让learned policy和behavior policy的差距尽量小。限制KL散度 -
Policy constraints for off-policy evaluation and improvement 策略约束
(1)让learned policy和behavior policy尽可能接近,可以把约束施加在①actor上(policy constraint),②reward function上或者target-Q value上(policy penalty)。使用两个分布的距离D来约束
(2)距离D的形式可以有两种:① 显式f散度约束(Explicit f-divergence constraints)包括KL散度之类的,②隐式f散度约束(Implicit f-divergence constraint)例如用Q的指数加权 behavior policy,③Integral probability metrics (IPOMs) -
基于不确定性估计的离线近似动态规划 (Offline approximated dynamic programming with uncertainty estimation)
(1)不同于上述constraint的思路,希望让Q function对于out of distribution action 更加resilient,按照两种不确定性(注意不确定性的概念,不是模型输出的概率,而是模型多次输出action是否相同的概率)
①数据不确定性:data可能出错
②模型不确定性:学到的模型参数可能有错进一步导致模型输出有错。
(2)可以使用ensemble的方式通过衡量输出的variance来估计不确定性。 -
方法2的的挑战和问题
(1)『不确定估计』在效果上比『策略约束』差,因为在Online RL中,不确定性通常是针对策略π的,只需要估计单步action的不确定性,但Offline RL,对于Q函数的不确定估计考虑了未来每一步的回报,更难。
(2)但『策略约束』也有很多问题,首先behavior policy是从Dataset中学出来的,而不是给定的,所以进一步学习也会受限于behavior policy的好坏。现在只能依赖估计。
(3)即便估计准确了,估计Q函数还可能出现过拟合的问题,如果state-action 分布很狭窄,那么用神经网络学出来的Q函数产生的结果泛化能力也很低
(4)还有一个大问题:误差随着步长累积。除了train的时候有影响,test的时候也会因为state分布有shift而影响,所以『策略约束』一定要足够强,但是这会限制策略提升的空间。问题:如何平衡分布偏移和策略提升的次优性,并且可以不需要额外的函数来估计behavior policy
方法3:基于模型的离线强化学习 (Offline Model-Based RL
-
没有方法,只有挑战
-
方法3的的挑战和问题
(1)先学状态转移模型T,然后直接通过planning来生成action,或者直接训练一个policy函数
(2)核心问题:数据集学出来的状态转移模型T是对于behavior policy的,并非对应learned policy,还是distributional shift
(3)目前极少工作探讨offline model-based RL,本身online model-based RL就有自身的挑战,难以解决高维的state和long horizon
(4)是否model-based模型能在理论上帮助提升model-free DP还是一个公开问题,因为DP虽然没有直接学一个动态模型,但约等于学了一个无参数模型
(5)本质上DP和model-based RL都是在做预测问题。前者预测future return,后者预测future states,因此offline RL 对于non-linear函数估计的model-based mocel与DP 方法的theoretical bounds on the optimal performance也是一个公开问题 -
作者在视频分享里提及的文章
importance sampling
Model selection
modern RL
文献:
[1] Schulman, J., Levine, S., Abbeel, P., Jordan, M., and Moritz, P. (2015a). Trust region policy optimization. In International conference on machine learning, pages 1889–1897.
[2] Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S. (2019a). Stabilizing off-policy q-learning via bootstrapping error reduction. In Advances in Neural Information Processing Systems, pages 11761–11771.
2. Offline Reinforcement Learning NeurIPS 2020 Tutorial
Aviral kumar Sergey Levine
UC Berkeley
video
2.1
机器学习有用:大规模数据,可以识别图像、声音、翻译
强化学习:需要实时更新dataset,我们能开发data-driven RL method吗
![](https://img.haomeiwen.com/i7720139/bbe18e05d9e795da.png)
Offline RL的要求
(1)有一个好的数据集,包含了好的动作和坏的动作轨迹
(2)泛化能力
(3)stitching:有一些好的动作可以合并,比如从找到了从A到B和从B到C的路径,可以合并成从A到C的路径。
分析一个case
![](https://img.haomeiwen.com/i7720139/8b85572134aa5d1f.png)
使用了Offline QT-opt算法和Finetuned QT-Opt算法训练
问题:考虑这种情况,在纯粹的offline RL上(纯offline数据集)增加online fine-tuning(online数据集,可以比offline的小10倍),可以比offline的成功率高很多(87%->96%)
为什么offline RL这么难:
(1)可能存在overfitting?有实验证明数据集大小对于HalfCheetah实验的效果影响不大而且看起来不像overfit了,但数据集越小q-function越容易被高估
(2)training data不够好
(3)distribution shift:dataset里的behavior policy 和 learned policy不一致
(4)sampling & function approximation error:本身online RL就存在,offline RL会更严重
Offline RL with policy gradient
(1) 使用importance sampling
An Optimistic Perspective on Offline Reinforcement Learning
论文:https://arxiv.org/abs/1907.04543
代码:https://github.com/google-research/batch_rl
中文:https://www.linkresearcher.com/theses/14edb429-a231-4009-a0f5-70b7712300d7
motivation:
- Agent interacts with an online environment,which limits online RL’s applicability to complex real world problems. (expensive data or high-fidelity simulator)
- robotics
- autonomous driving
- recommendation systems
- healthcare
- enable better generalization by incorporating diverse prior experiences
contribution:
- An offline RL setup is proposed for evaluating algorithms on Atari 2600 games
- show that recent off-policy RL algorithms trained solely on offline data can be successful,attributed to the differences in offline dataset size and diversity as well as the choice of RL algorithm.
-
present Random Ensemble Mixture (REM),outperforms offline QR-DQN
different DQN
problem
- using a fixed dataset of experiences,isolate an RL algorithm’s ability to exploit experience and generalize vs. its ability to explore effectively(将利用和探索的能力分开来)
- without correcting for distribution mismatch. 当前策略和离线数据收集策略之间的分布不匹配,难确定奖励
algorithm
- ensembling is used on improving generalization in the offline setting.
- Random Ensemble Mixture (REM):用一种计算效率高的方式在指数数量的q估计上使用ensemble。
(1)首先使用多个参数化q函数来估计q值
(2)关键点:我们可以将多个q值估算的凸组合视为q值估算本身:train a family of Q-function approximators defined by mixing probabilities on a (K − 1)-simplex.
some points
- Increasing the number of models used for ensembling typically improves the performance of supervised learning models
网友评论