文章名称
【WSDM-2020】【Criteo Research】Offline A/B testing for Recommender Systems
核心要点
文章旨在构造实际可用的推荐模型离线评估器,实现没有线上AB实验的情况下,评估目标模型相对线上模型的潜在提升,快速迭代原型,筛选策略。作者提出了两个capped importance sampling[1]的两个变种,解决capped importance sampling假设过于不切实际的问题,并避免Basic Importance Sampling[3,4]与Doubly Robust[2]方法高方差的风险。
上一节介绍了NCIS方法,以及其局限性,需要利用非全局的调整,来实现偏差缩减。本节继续介绍作者提出的两种非全局调整方法。
方法细节
问题引入
如前所述,作者重写NCIS的偏差为如下图所示的公式,并认为和的相关性较大。因此需要结合用户特征来进行偏差缩减。具体方法为非全局的调整权重调整
refine bias of NCIS具体做法
Piecewise constant model
作者首先提出了一种简单的方法来进行局部调整。首先对用户进行分组,得到分组。随后,在每个组上估计期望收益,并再对期望收益求期望(也就是加权求和)。
decomposition of the expectation over groups每组用户内利用NCIS进行期望收益的估计。其中,是对的估计,而是对期望的估计。
expectation in groups对期望的经验估计如下图所示。理想的分组,是使得的估计值在各种下是常数。
estimate of expectation可以看出,上述方法的核心是如何选取合适的,可以简单的用人工挑选的特征进行划分,但是人工挑选是很困难的。一个简单有效的方法是,利用价值模型来估计给定特征的情况下,用户的估计收益,利用这个来分组(有点类似利用propensity代替多维特征来matching)。作者采用如下图所示的公式,构造了一个对数空间,在该空间里,再用人工选择的特征筛选,优势在于对数空间降低了收益对的依赖,并且相对可控。
value base log-space partition这样的做法虽然能能够帮助找到比较优质的分组,但是单独再其他数据上训练价值模型。
Pointwise model
为了避免训练价值模型,作者进一步把期望收益分解到的维度(类似于ATE到ITE),具体计算公式如下图所示。
decomposition然而,在该场景下,我们很难利用如下图所示的方法来进行估算,因为两种策略同时命中一个的概率会很小(想象一下在茫茫大海里,两个标枪扎到一个点上)。
simple ratio estimator然而,我们可以从中采样,通过Monte Carlo方法,对进行估计。作者利用拒绝采样[5]的方法得到对无偏估计,最终NCIS的估计方法,如下图所示。
pointwise method NCIS值得注意的是,如果非常不相似的情况下,会非常小,导致存在极大地方差。这种时候,需要使用max capping,并减小,具体参见论文附录部分。
心得体会
不相似
其实,counterfactual reasoning或者叫CRM,其实本质是offline RL,或者说叫batched RL。都是需要进行策略分布的对齐。如果策略差距特别大,那么很难得到充足的信息判断新策略的好坏。熟悉RL的同学们可能想起了BCQ。另外可以试想一下因果场景中的matching,如果两种不同treatment下的分布差别特别大...没搞头...
文章引用
[1] Léon Bottou and Jonas Peters. 2013. Counterfactual reasoning and learning systems: the example of computational advertising. Proceedings of Journal of Machine Learning Research (JMLR).
[2] Miroslav Dudik, John Langford, and Lihong Li. 2011. Doubly robust policy evaluation and learning. Proceedings of the 28th International Conference on Machine Learning (ICML).
[3] JM Hammersley and DC Handscomb. 1964. Monte Carlo Methods. Chapter.
[4] Daniel G Horvitz and Donovan J Thompson. 1952. A generalization of sampling without replacement from a finite universe. Journal of the American statistical Association.
[5] Deba B Lahiri. 1951. A method of sample selection providing unbiased ratio estimates. Bulletin of the International Statistical Institute.
网友评论