因果推断推荐系统工具箱 - ACL（三）

作者: processor4d | 来源:发表于2021-12-28 23:05 被阅读0次

因果推断推荐系统工具箱 - ACL（三）
因果推断推荐系统工具箱 - ACL（一）
因果推断推荐系统工具箱 - ACL（二）
因果推断推荐系统工具箱 - CASR（三）
因果推断推荐系统工具箱 - NCIS（三）
因果推断推荐系统工具箱 - CCF（三）
因果推断推荐系统工具箱 - DSC（三）
因果推断推荐系统工具箱 - Dual Bandit（三）
因果推断推荐系统工具箱 - DICE（一）
因果推断推荐系统工具箱 - DICE（二）

文章名称

【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System

核心要点

文章旨在解决部分混淆变量不可观测，导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架，利用两个推荐模型来模拟松弛后的对偶问题，进而解决曝光偏差对预估推荐结果的影响。

上一节介绍了作者提出的两个模型对抗学习的方法，本节介绍具体实现。

方法细节

问题引入

上一节介绍到，利用两个模型 $f_\theta, g_\psi$ ，进行minimax训练，可以模拟IPS方法，并且不要求数据满足unconfounderness的假设，即可以存在未观测到的混淆变量（论文是在曝光偏差的场景下）。

通过理论分析，作者证明所提出的方法与标准ERM具有相同的 $\frac{1}{\sqrt{n}}$ 的收敛速度。具体的证明过程和细节可以参考原论文（如果需要可以单独写一下这部分的理论分析）。

具体做法

不能直接优化如下图所示的目标函数，来学习模型参数。因为， $g^*$ 是未知的，并且当模型的空间 $\mathcal{G}$ 非常复杂的时候，例如神经网咯，Wasserstein distance是很难计算的。因此作者从 $f_\theta, g_\psi$ 的角色的角度出发，进行简化。

practical implementation

方法的目标是优化 $f_\theta$ ，而 $g_\psi$ 仅仅是为了提供正则项（或者叫做对抗项）来确保数据的曝光机制和真实的曝光机制相吻合（也就是曝光机制是受控的）。这个可控通过 $W_c(G(g_\psi), G(g^*))$ 反映。作者表示调节这个约束不会显著的影响模型的效果，因为可以调整权重参数 $\alpha$ 。因此，作者利用一些实际可训练的 $g_\psi$ 来代替公式7中的正则项（作者表示，这种方法也常见于一些GAN方法[11]）,

在显示反馈中，曝光数据是可以获得的。此时，利用曝光数据来当做正则项，具体公式如下图所示，其中 $D_{exp} = \{ (u, i) \in \mathcal{D}| o_{u, i} = 1 \}$ 。
explicit feedback regularizer

基于物品内容的推荐数据，一般和物品的流行度相关，因此可以利用物品流行度的相关性作为正则项。具体公式如下图所示。公式利用的是用户点击和曝光模型两者的相关性，曝光模型反映了物品的流行程度。

content-based regularizer

在隐式反馈中，如果没有任何可以引入的先验知识。则直接利用反馈数据当做正则项，具体公式如下图所示。其中期望内的函数表示了曝光模型与实际（观测到的）评分的偏差（可以被理解为，用另外一个模型来模拟真实观测数据）。

implicit feedback regularizer

考虑到普适性，作者采用第三种方式，得到的优化目标如下图所示。

practical adversarial objective

unobserved factors

作者利用Tukey’s factorization[9]来解决未观测混淆变量的影响，也就是公式7中的 $G$ （他们是曝光机制的一部分，比如运营规则，重排规则等）。Tukey’s factorizationtion提出对曝光机制和实际收益的关系进行额外的假设[8]，[35]把Tukey’s factorization引入到推荐场景中。作者采用了简单的logistic-regression假设来建模 $G$ ，具体假设如下图所示。

logistic-regression to model G

将 $G_\beta$ 带入优化目标，得到最终的优化目标如下图所示。

final adversarial objective

值得注意的是，作者把本来是对抗模型的参数 $\beta$ 放在了最小化步骤里，并解释说， $G_\beta$ 仅仅充当了未观测confounder的作用，不用来对抗训练，不然对抗模型将过强，导致目标模型不能得到训练（这里其实没太理解）。

optimization

由于 $min_{f_\theta} max_{g_\psi} \mathcal{l}(f_\theta, g_\psi)$ 中的 $\mathcal{l}$ 是nonconvex-nonconcave。因此， $min_{f_\theta} max_{g_\psi} \mathcal{l}(f_\theta, g_\psi) \neq max_{g_\psi} min_{f_\theta} \mathcal{l}(f_\theta, g_\psi)$ [38]，交替优化 $f_\theta$ 和 $g_\psi$ 的顺序变得至关重要，作者选择优先训练 $f_\theta$ 。

此外，采用作者采用two-timescale gradient descent ascent (GDA) [15]来优化模型，但是GDA假设 $f_\theta$ 和 $g_\psi$ 是同时训练的，才会收敛到局部Nash均衡，不适用作者讨论的场景。所以，**作者不断update $f_\theta$ 和 $g_\psi$ 直到任何一个都不在变化。

代码实现

文章的伪代码如下图所示。

pseudo code

心得体会

minimax game

作者提出的minimax game本质上是对propensity score的一种模拟，并且利用 $G$ 矫正了未观测混淆变量的影响。然而，由于计算复杂度的问题，最终还是进行了各种简化，转换成了最终的正则项。

文章引用

[8] A. Franks, A. D’Amour, and A. Feller. Flexible sensitivity analysis for observational studies without observable implications. Journal of the American Statistical Association, pages 1–33, 2019.

[9] A. M. Franks, E. M. Airoldi, and D. B. Rubin. Non-standard conditionally specified models for non-ignorable missing data. arXiv preprint arXiv:1603.06045, 2016.

[11] I. Goodfellow. Nips 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016.

[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in neural information processing systems, pages 6626–6637, 2017.

[35] T. Schnabel, A. Swaminathan, A. Singh, N. Chandak, and T. Joachims. Recommendations as treatments: Debiasing learning and evaluation. arXiv preprint arXiv:1602.05352, 2016.

（为了保证对应可查，引用将遵循原文的顺序和标号，额外引用将用*代表）
（虽然如下图所示有点多，如果觉得有用，不吝赞一个哇_.）

因果推断推荐系统工具箱 - ACL（三）
文章名称【NIPS-2020】【Walmart Labs】Adversarial Counterfactual ...
因果推断推荐系统工具箱 - ACL（一）
文章名称【NIPS-2020】【Walmart Labs】Adversarial Counterfactual ...
因果推断推荐系统工具箱 - ACL（二）
（为了保证对应可查，引用将遵循原文的顺序和标号，额外引用将用*代表）（如果觉得有用，不吝赞一个哇.）文章名称【...
因果推断推荐系统工具箱 - CASR（三）
文章名称【SIGIR-2021】【Beijing Key Laboratory of Big Data Mana...
因果推断推荐系统工具箱 - NCIS（三）
文章名称【WSDM-2020】【Criteo Research】Offline A/B testing for ...
因果推断推荐系统工具箱 - CCF（三）
文章名称【AAAI-2019】【Rutgers University】Causal Collaborative ...
因果推断推荐系统工具箱 - DSC（三）
文章名称【AAAI-2019】【University College London/Noah's Ark Lab...
因果推断推荐系统工具箱 - Dual Bandit（三）
文章名称【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy...
因果推断推荐系统工具箱 - DICE（一）
文章名称【www-2021】Disentangling User Interest and Conformity...
因果推断推荐系统工具箱 - DICE（二）
文章名称【www-2021】Disentangling User Interest and Conformity...