因果推断推荐系统工具箱 - NCIS（四）

作者: processor4d | 来源:发表于2021-12-24 13:49 被阅读0次

因果推断推荐系统工具箱 - NCIS（四）
因果推断推荐系统工具箱 - NCIS（三）
因果推断推荐系统工具箱 - NCIS（一）
因果推断推荐系统工具箱 - NCIS（二）
因果推断推荐系统工具箱 - CCF（四）
因果推断推荐系统工具箱 - Dual Bandit（四）
因果推断推荐系统工具箱 - DICE（一）
因果推断推荐系统工具箱 - DICE（二）
因果推断推荐系统工具箱 - DLA（一）
因果推断推荐系统工具箱 - DLA（二）

文章名称

【WSDM-2020】【Criteo Research】Offline A/B testing for Recommender Systems

核心要点

文章旨在构造实际可用的推荐模型离线评估器，实现没有线上AB实验的情况下，评估目标模型相对线上模型的潜在提升，快速迭代原型，筛选策略。作者提出了两个capped importance sampling[1]的两个变种，解决capped importance sampling假设过于不切实际的问题，并避免Basic Importance Sampling[3,4]与Doubly Robust[2]方法高方差的风险。

上一节介绍了NCIS方法，以及其局限性，需要利用非全局的调整，来实现偏差缩减。本节继续介绍作者提出的两种非全局调整方法。

方法细节

问题引入

如前所述，作者重写NCIS的偏差为如下图所示的公式，并认为 $X$ 和 $R$ 的相关性较大。因此需要结合用户特征来进行偏差缩减。具体方法为非全局的调整权重调整

refine bias of NCIS

具体做法

Piecewise constant model

作者首先提出了一种简单的方法来进行局部调整。首先对用户进行分组，得到分组 $\mathcal{G}$ 。随后，在每个组上估计期望收益，并再对期望收益求期望（也就是加权求和）。

decomposition of the expectation over groups

每组用户内利用NCIS进行期望收益的估计。其中， $\alpha_g = \sum_{(a, x, r)\in S_n} \mathbf{1}_{x \in g} / n$ 是对 $p(X \in g)$ 的估计，而 $\hat{\mathcal{R}}|_g^{NCIS}(\pi_t, c)$ 是对期望 $\mathbb{E}_{\pi_t}[R | X \in g]$ 的估计。

expectation in groups

对期望的经验估计如下图所示。理想的分组 $\mathcal{ G }$ ，是使得 $\hat{\mathcal{R}}|^{PieceNCIS}(\pi_t, c)$ 的估计值在各种 $c$ 下是常数。

estimate of expectation

可以看出，上述方法的核心是如何选取合适的 $\mathcal{ G }$ ，可以简单的用人工挑选的特征进行划分，但是人工挑选是很困难的。一个简单有效的方法是，利用价值模型 $V$ 来估计给定特征 $x$ 的情况下，用户的估计收益，利用这个来分组（有点类似利用propensity代替多维特征来matching）。作者采用如下图所示的公式，构造了一个对数空间 $b$ ，在该空间里，再用人工选择的特征筛选，优势在于对数空间降低了收益 $r$ 对 $x$ 的依赖，并且相对可控。

value base log-space partition

这样的做法虽然能能够帮助找到比较优质的分组，但是单独再其他数据上训练价值模型。

Pointwise model

为了避免训练价值模型，作者进一步把期望收益分解到 $X = x$ 的维度（类似于ATE到ITE），具体计算公式如下图所示。

decomposition

然而，在该场景下，我们很难利用如下图所示的方法来进行估算，因为两种策略同时命中一个 $x$ 的概率会很小（想象一下在茫茫大海里，两个标枪扎到一个点上）。

simple ratio estimator

然而，我们可以从 $\pi_t$ 中采样，通过Monte Carlo方法，对 $\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]$ 进行估计。作者利用拒绝采样[5]的方法得到对 $\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]$ 无偏估计 $\hat{IP}_c(x)$ ，最终NCIS的估计方法，如下图所示。

pointwise method NCIS

值得注意的是，如果 $\pi_t, \pi_p$ 非常不相似的情况下， $\mathbb{E}_{\pi_t}[\frac{\overline{W}}{W}|X = x]$ 会非常小，导致存在极大地方差。这种时候，需要使用max capping，并减小 $c$ ，具体参见论文附录部分。

心得体会

$\pi_t, \pi_p$ 不相似

其实，counterfactual reasoning或者叫CRM，其实本质是offline RL，或者说叫batched RL。都是需要进行策略分布的对齐。如果策略差距特别大，那么很难得到充足的信息判断新策略的好坏。熟悉RL的同学们可能想起了BCQ。另外可以试想一下因果场景中的matching，如果两种不同treatment下的分布差别特别大...没搞头...

文章引用

[1] Léon Bottou and Jonas Peters. 2013. Counterfactual reasoning and learning systems: the example of computational advertising. Proceedings of Journal of Machine Learning Research (JMLR).

[2] Miroslav Dudik, John Langford, and Lihong Li. 2011. Doubly robust policy evaluation and learning. Proceedings of the 28th International Conference on Machine Learning (ICML).

[3] JM Hammersley and DC Handscomb. 1964. Monte Carlo Methods. Chapter.

[4] Daniel G Horvitz and Donovan J Thompson. 1952. A generalization of sampling without replacement from a finite universe. Journal of the American statistical Association.

[5] Deba B Lahiri. 1951. A method of sample selection providing unbiased ratio estimates. Bulletin of the International Statistical Institute.

因果推断推荐系统工具箱 - NCIS（四）
文章名称【WSDM-2020】【Criteo Research】Offline A/B testing for ...
因果推断推荐系统工具箱 - NCIS（三）
文章名称【WSDM-2020】【Criteo Research】Offline A/B testing for ...
因果推断推荐系统工具箱 - NCIS（一）
文章名称【WSDM-2020】【Criteo Research】Offline A/B testing for ...
因果推断推荐系统工具箱 - NCIS（二）
文章名称【WSDM-2020】【Criteo Research】Offline A/B testing for ...
因果推断推荐系统工具箱 - CCF（四）
文章名称【AAAI-2019】【Rutgers University】Causal Collaborative ...
因果推断推荐系统工具箱 - Dual Bandit（四）
文章名称【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy...
因果推断推荐系统工具箱 - DICE（一）
文章名称【www-2021】Disentangling User Interest and Conformity...
因果推断推荐系统工具箱 - DICE（二）
文章名称【www-2021】Disentangling User Interest and Conformity...
因果推断推荐系统工具箱 - DLA（一）
文章名称【SIGIR-2018】【UMass】Unbiased Learning to Rank with Un...
因果推断推荐系统工具箱 - DLA（二）
文章名称【SIGIR-2018】【UMass】Unbiased Learning to Rank with Un...