文章名称
【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System
核心要点
文章旨在解决部分混淆变量不可观测,导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架,利用两个推荐模型来模拟松弛后的对偶问题,进而解决曝光偏差对预估推荐结果的影响。
上一节介绍了作者提出的两个模型对抗学习的方法,本节介绍具体实现。
方法细节
问题引入
上一节介绍到,利用两个模型,进行minimax训练,可以模拟IPS方法,并且不要求数据满足unconfounderness的假设,即可以存在未观测到的混淆变量(论文是在曝光偏差的场景下)。
通过理论分析,作者证明所提出的方法与标准ERM具有相同的的收敛速度。具体的证明过程和细节可以参考原论文(如果需要可以单独写一下这部分的理论分析)。
具体做法
不能直接优化如下图所示的目标函数,来学习模型参数。因为,是未知的,并且当模型的空间
非常复杂的时候,例如神经网咯,Wasserstein distance是很难计算的。因此作者从
的角色的角度出发,进行简化。
practical implementation
方法的目标是优化,而
仅仅是为了提供正则项(或者叫做对抗项)来确保数据的曝光机制和真实的曝光机制相吻合(也就是曝光机制是受控的)。这个可控通过
反映。作者表示调节这个约束不会显著的影响模型的效果,因为可以调整权重参数
。因此,作者利用一些实际可训练的
来代替公式7中的正则项(作者表示,这种方法也常见于一些GAN方法[11]),
- 在显示反馈中,曝光数据是可以获得的。此时,利用曝光数据来当做正则项,具体公式如下图所示,其中
。
explicit feedback regularizer
基于物品内容的推荐数据,一般和物品的流行度相关,因此可以利用物品流行度的相关性作为正则项。具体公式如下图所示。公式利用的是用户点击和曝光模型两者的相关性,曝光模型反映了物品的流行程度。
content-based regularizer
在隐式反馈中,如果没有任何可以引入的先验知识。则直接利用反馈数据当做正则项,具体公式如下图所示。其中期望内的函数表示了曝光模型与实际(观测到的)评分的偏差(可以被理解为,用另外一个模型来模拟真实观测数据)。
implicit feedback regularizer
考虑到普适性,作者采用第三种方式,得到的优化目标如下图所示。

unobserved factors
作者利用Tukey’s factorization[9]来解决未观测混淆变量的影响,也就是公式7中的(他们是曝光机制的一部分,比如运营规则,重排规则等)。Tukey’s factorizationtion提出对曝光机制和实际收益的关系进行额外的假设[8],[35]把Tukey’s factorization引入到推荐场景中。作者采用了简单的logistic-regression假设来建模
,具体假设如下图所示。

将带入优化目标,得到最终的优化目标如下图所示。

值得注意的是,作者把本来是对抗模型的参数放在了最小化步骤里,并解释说,
仅仅充当了未观测confounder的作用,不用来对抗训练,不然对抗模型将过强,导致目标模型不能得到训练(这里其实没太理解)。
optimization
由于中的
是nonconvex-nonconcave。因此,
[38],交替优化
和
的顺序变得至关重要,作者选择优先训练
。
此外,采用作者采用two-timescale gradient descent ascent (GDA) [15]来优化模型,但是GDA假设和
是同时训练的,才会收敛到局部Nash均衡,不适用作者讨论的场景。所以,**作者不断update
和
直到任何一个都不在变化。
代码实现
文章的伪代码如下图所示。

心得体会
minimax game
作者提出的minimax game本质上是对propensity score的一种模拟,并且利用矫正了未观测混淆变量的影响。然而,由于计算复杂度的问题,最终还是进行了各种简化,转换成了最终的正则项。
文章引用
[8] A. Franks, A. D’Amour, and A. Feller. Flexible sensitivity analysis for observational studies without observable implications. Journal of the American Statistical Association, pages 1–33, 2019.
[9] A. M. Franks, E. M. Airoldi, and D. B. Rubin. Non-standard conditionally specified models for non-ignorable missing data. arXiv preprint arXiv:1603.06045, 2016.
[11] I. Goodfellow. Nips 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016.
[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in neural information processing systems, pages 6626–6637, 2017.
[35] T. Schnabel, A. Swaminathan, A. Singh, N. Chandak, and T. Joachims. Recommendations as treatments: Debiasing learning and evaluation. arXiv preprint arXiv:1602.05352, 2016.
(为了保证对应可查,引用将遵循原文的顺序和标号,额外引用将用*代表)
(虽然如下图所示有点多,如果觉得有用,不吝赞一个哇.)
网友评论