(为了保证对应可查,引用将遵循原文的顺序和标号,额外引用将用*代表)
(如果觉得有用,不吝赞一个哇.)
文章名称
【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System
核心要点
文章旨在解决部分混淆变量不可观测,导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架,利用两个推荐模型来模拟松弛后的对偶问题,进而解决曝光偏差对预估推荐结果的影响。
上节介绍了作者研究的问题背景,描述了作者对监督学习的分析思路和结论,即,在没有确定的曝光机制信息的情况下,估计的结果受到曝光机制的影响,直接通过观测来估计是有偏差的。本节介绍作者提出的两个模型对抗学习的方法。
方法细节
问题引入
如前所述,可以从反事实的角度来学习和评估模型。但是这些反事实方法的一些假设很难满足。此外,理想的情况下,要求曝光机制是固定的,完全可知。然而,通常很难保证满足这种假设。因此,作者提出一种基于对抗训练的方法,建模曝光机制,把因曝光机制不明确导致的估计不确定性考虑进来。
具体做法
propensity-weighting approach
IPS方法使用propensity score作为权重来构建合成样本,其中观察到的特征分布(曝光与未被曝光的用户-物品对的分布)与暴光机制无关。这满足了进行无偏估计的要求,对IPS的损失函数在曝光分布上求期望,得到了无偏的损失,注意第二个期望的分布是是没有曝光影响的分布。
expectation of propensity-weighted loss值得注意的是,IPS调整后的经验分布为。表示经验曝光分布,该分可以被认为是合成样本的分布,并且消除潜在暴露机制的影响。也就是说,我们在调整后的概率分布上估计目标损失就是对真实无偏损失的估计了。
然而,propensity score方法需要满足因果的基本假设,其中包括unconfounderness的,才可以准确识别(或者说可以平衡)。但是,这个假设(在作者的研究背景下)在真实的场景中很难满足。
hidden assumption of the missing-data (click) model
为了解决曝光机制缺失的问题,许多文章[33, 2, 23, 42]引入如下图所示的点击模型,来对缺失的信息建模。
click model基于上述click model,我们可以显示的建模曝光机制。然而,这个模型过于简单了。假设用户-物品是否真实相关的真实随机变量表示为,我们得到如下图所示的推到过程。其中,
- 第一个等式表示的是。
- 第二个等式表示联合概率分解。
- 最后一个推到,利用了上述click model(公式3)。
上述click model意味着曝光和相关性是独立的。但是这个条件在真实场景下,一般不满足。除非特征包含可能同时影响曝光和用户偏好的因素。但是这个假设不能被检查。我们的目标是在上述条件不满足的时候,能够对相关性进行准确估计。
ACL
作者提出引入一个minmax game来表征不确定性。假设没有受到曝光机制影响的理想反馈数据分布为,通过不断缩小推荐模型可能基于的最差观察分布,来提升模型性能。这个最差是在一定范围内的(作者表示是由数据的邻域决定,这里没太理解),。
作者选择wasserstein distance来度量两个分布的距离,即。如上两个分布的距离如下图所示。其中,表示的是cost function,并且是凸的,而表示所有分布的组合边界。
wasserstein distance作者选用wasserstein distance主要是期望衡量从到需要移动多少概率密度。
通过优化下述minimax ERM,可以得到最优的模型。然而,该损失存在两个缺陷,
- 优化目标是约束优化问题。
- 该约束问题是针对进行假设的,忽略了对曝光机制的估计。
针对上述问题,作者设计了对偶问题,利用来估计实际的曝光机制。首先,如下图所示的claim 2定义了优化目标和曝光模型的关系,具体的证明和解释参考论文附录。
claim 2基于claim 2,将得到如下图所示的minimax game(最大化体现在上确界)。其中,对实际曝光估计的准确程度。
minimax gametwo-model minimax game这里(分布中的某个特定密度)可以被认为权重因子,类似propensity score,不同的是,的部分类似正则项,约束了这个权重。
通常,曝光机制受到线上推荐模型的影响,因此,我们利用线上推荐模型的模拟构造曝光概率,并利用变换函数表示后续的变换机制(包括未知的运营策略,或系统链路等噪声),得到对的经验估计。最终,优化目标转换为如下图所示。
心得体会
IPS
个人理解,作者的方法只是不强求某些假设被满足,但是其结果最终和IPS没有本质区别,只是多了正则项而已。然而,该思路确实可以适用多种场景。
文章引用
[2] Q. Ai, K. Bi, C. Luo, J. Guo, and W. B. Croft. Unbiased learning to rank with unbiased propensity estimation. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, pages 385–394, 2018.
[23] D. Liang, L. Charlin, J. McInerney, and D. M. Blei. Modeling user exposure in recommendation. In Proceedings of the 25th international conference on World Wide Web, pages 951–961, 2016.
[33] Y. Saito, S. Yaginuma, Y. Nishino, H. Sakata, and K. Nakata. Unbiased recommender learning from missing-not-at-random implicit feedback. In Proceedings of the 13th International Conference on Web Search and Data Mining, pages 501–509, 2020.
[42] M. Wang, M. Gong, X. Zheng, and K. Zhang. Modeling dynamic missingness of implicit feedback for recommendation. In Advances in neural information processing systems, pages 6669–6678, 2018.
网友评论