协变量偏移(covariance shift),就是指训练/历史数据和测试/待评估数据的特征分布不一致的情况。这时策略的价值也随数据集的变化而变化,用训练数据学出来的策略就不一定是测试数据上最优的了。
原文:Off-Policy Evaluation and Learning For External Validity under a Covariate Shift
作者: Masahiro Kato, Masatoshi Uehara, Shota Yasui
本文提出了一种double robust的估计方法,并针对其中的nuisance parameters给出了拟合方式。作者证明,这种估计在部分nuisance parameters模型误设的情况下依然一致有效。
作者假设新旧数据集均可观测,它们的协变量分布未知。旧酒的喝法——历史数据中的决策分配机制也待估计,欲求新酒的最优喝法——待评估数据的最优策略。
数据集p(x)、q(x)及历史策略π^b未知,欲估A~π^e时的E_q(x)[Y(A)],并求最优π^e
定义概率密度比与策略比,那么的策略价值就是:
作者提出的double robust估计形式为:
作者证明,在与设对,或者设对的前提下,(2)均能得到一致的估计。并且给出了一个估计收敛的有效上界。
借鉴Chernozhukov(2018)[1]的交叉拟合(cross-fitting)方式,(2)这些nuisance parameters可以用K-1份数据拟合,代入到剩下的1份数据估计,最终策略价值便是K个交叉拟合估计的平均值。
其中,概率密度比的估计可以采用Least-Squares Importance Fitting (LSIF)。原理是找到一个使得它和理论的误差平方最小,等价于最小化。它的经验估计版本可以通过加上正则项来估计。
-
Chernozhukov, Victor, et al. "Double/debiased machine learning for treatment and structural parameters: Double/debiased machine learning." The Econometrics Journal 21.1 (2018). ↩
网友评论