文章名称
【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System
核心要点
文章旨在解决部分混淆变量不可观测,导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架,利用两个推荐模型来模拟松弛后的对偶问题,进而解决曝光偏差对预估推荐结果的影响。
方法细节
问题引入
观测数据是受到线上推荐模型影响的,有偏差的数据。利用该数据直接进行监督学习不可避免的造成估计偏差,并且无偏模型估计要求模型考虑曝光倾向,也就是需要乘以一个曝光概率,但是这个曝光概率(也就是propensity score)一般没有记录,需要估计,且很难估计准确。这导致虽然离线评估效果很好,但是实际线上效果偏差较大。
虽然,可以从反事实的角度来学习和评估模型。但是这些反事实方法的一些假设很难满足。例如,要求观测到全部confounder。并且,最终的曝光可能有很大的噪声,甚至没有被完全记录。
基于此,作者提出一种基于对抗训练的方法,把因曝光机制不明确导致的估计不确定性考虑进来。
具体做法
首先,形式化的定义一下问题,
- 用户和物品特征,可以是one-hot也可以是embedding,被记作。
- 物品的曝光情况,记作。
- 用户-物品元组的反馈,记作,也可以是点击,也可以是评分。
- 数据集记作,其中负样本可以是全部未交互物品,也可以是负采样的样本。
- 推荐模型,记作,其中作者用作为曝光估计模型(实际上可以理解为线上的推荐模型,作者利用两个模型来对抗学习)。
- 模型损失,记作,其中是观测的用户反馈。
整个形式化比较常规,值得注意的是,表示在模型的情况下,物品被曝光给该用户的概率表示用户可能的反馈的概率,当观测到随机变量时,该概率和曝光机制是相互独立的(也就是所谓的没有曝光的confounder了)。
Supervised learning for feedback data.
假设表示用户的隐式反馈,监督学习通过优化如下图所示的损失学习模型参数。此时,没有考虑曝光的机制。其中,常用的损失函数。
supervised loss当考虑曝光机制的影响时,监督学习的损失与如下图所示的两个联合概率有关,即在不同曝光情况下,用户的正负反馈的概率。
supervised loss with exposure mechanism作者分析当曝光机制故定时,通过优化监督学习损失函数得到的最优的模型只与上述两个联合概率有关系,详细证明参见附录,其中,如claim 1所述是某个依赖的函数。
Claim 1值得注意的是,上述联合概率可以被分解为如下图所示的比率式。
factorized joint distribution在这种情况下,由claim 1可以得到如下图所示的最优模型和条件概率的关系,可以看出最优模型是在观测曝光情况下正负反馈的比值,注意此时曝光机制必须可以观测并且固定。
optimal model implied from claim 1通过如上分析,可以得到如下结论,
- 最优损失函数与曝光机制和用户偏好相关。
- 最优的模型仅仅与用户偏好有关系,即是的函数,**注意,这里是小写是观测值而不是随机变量。
然而,通常是未知的。因此,如果观测数据是在不同的曝光机制下收集的,推荐模型预测出不同的用户偏好。这种不一致主要是由于在监督学习中没有考虑未知的曝光机制造成的。
本节介绍了作者研究的问题背景,描述了作者对监督学习的分析思路和结论,即,在没有确定的曝光机制信息的情况下,估计的结果受到曝光机制的影响,直接通过观测来估计是有偏差的。
心得体会
曝光机制未知
通常我们假设推荐系统的曝光机制是未知的,虽然可以利用模型来从观测数据中估计曝光的概率,也就是倾向性得分,但是,个人理解,这个值可能是有偏差的,毕竟观察到的曝光数据只是一部分,我们没有线上推荐模型的全部信息。
另一种方法是,记录下线上模型的预测概率。然而最终的曝光杂糅了最后的运营规则等其他噪声影响,这些噪声,讲道理应该也要被模型完整模拟才行。
网友评论