美文网首页因果推断推荐工具箱
因果推断推荐系统工具箱 - NCIS(四)

因果推断推荐系统工具箱 - NCIS(四)

作者: processor4d | 来源:发表于2021-12-24 13:49 被阅读0次

    文章名称

    【WSDM-2020】【Criteo Research】Offline A/B testing for Recommender Systems

    核心要点

    文章旨在构造实际可用的推荐模型离线评估器,实现没有线上AB实验的情况下,评估目标模型相对线上模型的潜在提升,快速迭代原型,筛选策略。作者提出了两个capped importance sampling[1]的两个变种,解决capped importance sampling假设过于不切实际的问题,并避免Basic Importance Sampling[3,4]与Doubly Robust[2]方法高方差的风险。

    上一节介绍了NCIS方法,以及其局限性,需要利用非全局的调整,来实现偏差缩减。本节继续介绍作者提出的两种非全局调整方法。

    方法细节

    问题引入

    如前所述,作者重写NCIS的偏差为如下图所示的公式,并认为XR的相关性较大。因此需要结合用户特征来进行偏差缩减。具体方法为非全局的调整权重调整

    refine bias of NCIS

    具体做法

    Piecewise constant model

    作者首先提出了一种简单的方法来进行局部调整。首先对用户进行分组,得到分组\mathcal{G}。随后,在每个组上估计期望收益,并再对期望收益求期望(也就是加权求和)。

    decomposition of the expectation over groups

    每组用户内利用NCIS进行期望收益的估计。其中,\alpha_g = \sum_{(a, x, r)\in S_n} \mathbf{1}_{x \in g} / n是对p(X \in g)的估计,而\hat{\mathcal{R}}|_g^{NCIS}(\pi_t, c)是对期望\mathbb{E}_{\pi_t}[R | X \in g]的估计。

    expectation in groups

    对期望的经验估计如下图所示。理想的分组\mathcal{ G },是使得\hat{\mathcal{R}}|^{PieceNCIS}(\pi_t, c)的估计值在各种c下是常数。

    estimate of expectation

    可以看出,上述方法的核心是如何选取合适的\mathcal{ G },可以简单的用人工挑选的特征进行划分,但是人工挑选是很困难的。一个简单有效的方法是,利用价值模型V来估计给定特征x的情况下,用户的估计收益,利用这个来分组(有点类似利用propensity代替多维特征来matching)。作者采用如下图所示的公式,构造了一个对数空间b,在该空间里,再用人工选择的特征筛选,优势在于对数空间降低了收益rx的依赖,并且相对可控。

    value base log-space partition

    这样的做法虽然能能够帮助找到比较优质的分组,但是单独再其他数据上训练价值模型。

    Pointwise model

    为了避免训练价值模型,作者进一步把期望收益分解到X = x的维度(类似于ATE到ITE),具体计算公式如下图所示。

    decomposition

    然而,在该场景下,我们很难利用如下图所示的方法来进行估算,因为两种策略同时命中一个x的概率会很小(想象一下在茫茫大海里,两个标枪扎到一个点上)。

    simple ratio estimator

    然而,我们可以从\pi_t中采样,通过Monte Carlo方法,对\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]进行估计。作者利用拒绝采样[5]的方法得到对\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]无偏估计\hat{IP}_c(x),最终NCIS的估计方法,如下图所示。

    pointwise method NCIS

    值得注意的是,如果\pi_t, \pi_p非常不相似的情况下,\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]会非常小,导致存在极大地方差。这种时候,需要使用max capping,并减小c,具体参见论文附录部分

    心得体会

    \pi_t, \pi_p不相似

    其实,counterfactual reasoning或者叫CRM,其实本质是offline RL,或者说叫batched RL。都是需要进行策略分布的对齐。如果策略差距特别大,那么很难得到充足的信息判断新策略的好坏。熟悉RL的同学们可能想起了BCQ。另外可以试想一下因果场景中的matching,如果两种不同treatment下的分布差别特别大...没搞头...

    文章引用

    [1] Léon Bottou and Jonas Peters. 2013. Counterfactual reasoning and learning systems: the example of computational advertising. Proceedings of Journal of Machine Learning Research (JMLR).

    [2] Miroslav Dudik, John Langford, and Lihong Li. 2011. Doubly robust policy evaluation and learning. Proceedings of the 28th International Conference on Machine Learning (ICML).

    [3] JM Hammersley and DC Handscomb. 1964. Monte Carlo Methods. Chapter.

    [4] Daniel G Horvitz and Donovan J Thompson. 1952. A generalization of sampling without replacement from a finite universe. Journal of the American statistical Association.

    [5] Deba B Lahiri. 1951. A method of sample selection providing unbiased ratio estimates. Bulletin of the International Statistical Institute.

    相关文章

      网友评论

        本文标题:因果推断推荐系统工具箱 - NCIS(四)

        本文链接:https://www.haomeiwen.com/subject/fpqkqrtx.html