美文网首页因果推断推荐工具箱
因果推断推荐系统工具箱 - ACL(三)

因果推断推荐系统工具箱 - ACL(三)

作者: processor4d | 来源:发表于2021-12-28 23:05 被阅读0次

文章名称

【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System

核心要点

文章旨在解决部分混淆变量不可观测,导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架,利用两个推荐模型来模拟松弛后的对偶问题,进而解决曝光偏差对预估推荐结果的影响。

上一节介绍了作者提出的两个模型对抗学习的方法,本节介绍具体实现。

方法细节

问题引入

上一节介绍到,利用两个模型f_\theta, g_\psi,进行minimax训练,可以模拟IPS方法,并且不要求数据满足unconfounderness的假设,即可以存在未观测到的混淆变量(论文是在曝光偏差的场景下)。

通过理论分析,作者证明所提出的方法与标准ERM具有相同的\frac{1}{\sqrt{n}}的收敛速度。具体的证明过程和细节可以参考原论文(如果需要可以单独写一下这部分的理论分析)。

具体做法

不能直接优化如下图所示的目标函数,来学习模型参数。因为,g^*是未知的,并且当模型的空间\mathcal{G}非常复杂的时候,例如神经网咯,Wasserstein distance是很难计算的。因此作者从f_\theta, g_\psi的角色的角度出发,进行简化。

practical implementation

方法的目标是优化f_\theta,而g_\psi仅仅是为了提供正则项(或者叫做对抗项)来确保数据的曝光机制和真实的曝光机制相吻合(也就是曝光机制是受控的)。这个可控通过W_c(G(g_\psi), G(g^*))反映。作者表示调节这个约束不会显著的影响模型的效果,因为可以调整权重参数\alpha。因此,作者利用一些实际可训练的g_\psi来代替公式7中的正则项(作者表示,这种方法也常见于一些GAN方法[11]),

  • 在显示反馈中,曝光数据是可以获得的。此时,利用曝光数据来当做正则项,具体公式如下图所示,其中D_{exp} = \{ (u, i) \in \mathcal{D}| o_{u, i} = 1 \}
    explicit feedback regularizer
  • 基于物品内容的推荐数据,一般和物品的流行度相关,因此可以利用物品流行度的相关性作为正则项。具体公式如下图所示。公式利用的是用户点击和曝光模型两者的相关性,曝光模型反映了物品的流行程度。


    content-based regularizer
  • 在隐式反馈中,如果没有任何可以引入的先验知识。则直接利用反馈数据当做正则项,具体公式如下图所示。其中期望内的函数表示了曝光模型与实际(观测到的)评分的偏差(可以被理解为,用另外一个模型来模拟真实观测数据)。


    implicit feedback regularizer

考虑到普适性,作者采用第三种方式,得到的优化目标如下图所示。

practical adversarial objective

unobserved factors

作者利用Tukey’s factorization[9]来解决未观测混淆变量的影响,也就是公式7中的G(他们是曝光机制的一部分,比如运营规则,重排规则等)。Tukey’s factorizationtion提出对曝光机制和实际收益的关系进行额外的假设[8],[35]把Tukey’s factorization引入到推荐场景中。作者采用了简单的logistic-regression假设来建模G,具体假设如下图所示。

logistic-regression to model G

G_\beta带入优化目标,得到最终的优化目标如下图所示。

final adversarial objective

值得注意的是,作者把本来是对抗模型的参数\beta放在了最小化步骤里,并解释说,G_\beta仅仅充当了未观测confounder的作用,不用来对抗训练,不然对抗模型将过强,导致目标模型不能得到训练(这里其实没太理解)。

optimization

由于min_{f_\theta} max_{g_\psi} \mathcal{l}(f_\theta, g_\psi)中的\mathcal{l}是nonconvex-nonconcave。因此,min_{f_\theta} max_{g_\psi} \mathcal{l}(f_\theta, g_\psi) \neq max_{g_\psi} min_{f_\theta} \mathcal{l}(f_\theta, g_\psi)[38],交替优化f_\thetag_\psi的顺序变得至关重要,作者选择优先训练f_\theta

此外,采用作者采用two-timescale gradient descent ascent (GDA) [15]来优化模型,但是GDA假设f_\thetag_\psi是同时训练的,才会收敛到局部Nash均衡,不适用作者讨论的场景。所以,**作者不断updatef_\thetag_\psi直到任何一个都不在变化。

代码实现

文章的伪代码如下图所示。

pseudo code

心得体会

minimax game

作者提出的minimax game本质上是对propensity score的一种模拟,并且利用G矫正了未观测混淆变量的影响。然而,由于计算复杂度的问题,最终还是进行了各种简化,转换成了最终的正则项。

文章引用

[8] A. Franks, A. D’Amour, and A. Feller. Flexible sensitivity analysis for observational studies without observable implications. Journal of the American Statistical Association, pages 1–33, 2019.

[9] A. M. Franks, E. M. Airoldi, and D. B. Rubin. Non-standard conditionally specified models for non-ignorable missing data. arXiv preprint arXiv:1603.06045, 2016.

[11] I. Goodfellow. Nips 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016.

[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in neural information processing systems, pages 6626–6637, 2017.

[35] T. Schnabel, A. Swaminathan, A. Singh, N. Chandak, and T. Joachims. Recommendations as treatments: Debiasing learning and evaluation. arXiv preprint arXiv:1602.05352, 2016.

(为了保证对应可查,引用将遵循原文的顺序和标号,额外引用将用*代表)
(虽然如下图所示有点多,如果觉得有用,不吝赞一个哇.

相关文章

网友评论

    本文标题:因果推断推荐系统工具箱 - ACL(三)

    本文链接:https://www.haomeiwen.com/subject/ubhmqrtx.html