美文网首页
旧瓶新酒怎么喝?协变量偏移(covariate shift)之评

旧瓶新酒怎么喝?协变量偏移(covariate shift)之评

作者: 顾劝劝 | 来源:发表于2020-05-04 21:24 被阅读0次

    协变量偏移(covariance shift),就是指训练/历史数据和测试/待评估数据的特征分布不一致的情况。这时策略的价值也随数据集的变化而变化,用训练数据学出来的策略就不一定是测试数据上最优的了。


    原文:Off-Policy Evaluation and Learning For External Validity under a Covariate Shift
    作者: Masahiro Kato, Masatoshi Uehara, Shota Yasui

    本文提出了一种double robust的估计方法,并针对其中的nuisance parameters给出了拟合方式。作者证明,这种估计在部分nuisance parameters模型误设的情况下依然一致有效。

    作者假设新旧数据集均可观测,它们的协变量分布未知。旧酒的喝法——历史数据中的决策分配机制也待估计,欲求新酒的最优喝法——待评估数据的最优策略。


    数据集p(x)、q(x)及历史策略π^b未知,欲估A~π^e时的E_q(x)[Y(A)],并求最优π^e

    定义概率密度比r(x)=q(x)/p(x)与策略比w(a,x)=\pi^e(a|x)/\pi^b(a|x),那么\pi^e的策略价值就是:
    R(\pi^e) = \mathbb{E}_{n^{hst}}[r(X)w(A,X)Y]\tag{1}
    作者提出的double robust估计形式为:
    \hat R(\pi^e) =\mathbb{E}_{n^{hst}}[\hat r(X) \hat w(A,X)(Y-\hat f(A,X))]+\mathbb{E}_{n^{evl}} \mathbb{E}_{\pi^e(a|z)}[\hat f(a,z)|z],\tag{2}

    作者证明,在\hat r\hat w设对,或者\hat f设对的前提下,(2)均能得到一致的估计。并且给出了一个估计收敛的有效上界。

    借鉴Chernozhukov(2018)[1]的交叉拟合(cross-fitting)方式,(2)\hat r(x),\ \hat w(a,x), \hat f(a,x)这些nuisance parameters可以用K-1份数据拟合,代入到剩下的1份数据估计\hat R^{(k)},最终策略价值便是K个交叉拟合估计的平均值。

    其中,概率密度比的估计可以采用Least-Squares Importance Fitting (LSIF)。原理是找到一个s(\cdot)使得它和理论r(\cdot)的误差平方最小,等价于最小化\dfrac{1}{2}\mathbb{E}_{p(x)}[s(x)^2]-\mathbb{E}_{q(z)}[s(z)]。它的经验估计版本可以通过加上正则项来估计。


    1. Chernozhukov, Victor, et al. "Double/debiased machine learning for treatment and structural parameters: Double/debiased machine learning." The Econometrics Journal 21.1 (2018).

    相关文章

      网友评论

          本文标题:旧瓶新酒怎么喝?协变量偏移(covariate shift)之评

          本文链接:https://www.haomeiwen.com/subject/bfbdghtx.html