美文网首页因果推断推荐工具箱
因果推断推荐系统工具箱 - ACL(一)

因果推断推荐系统工具箱 - ACL(一)

作者: processor4d | 来源:发表于2021-12-25 22:38 被阅读0次

    文章名称

    【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System

    核心要点

    文章旨在解决部分混淆变量不可观测,导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架,利用两个推荐模型来模拟松弛后的对偶问题,进而解决曝光偏差对预估推荐结果的影响。

    方法细节

    问题引入

    观测数据是受到线上推荐模型影响的,有偏差的数据。利用该数据直接进行监督学习不可避免的造成估计偏差,并且无偏模型估计要求模型考虑曝光倾向,也就是需要乘以一个曝光概率,但是这个曝光概率(也就是propensity score)一般没有记录,需要估计,且很难估计准确。这导致虽然离线评估效果很好,但是实际线上效果偏差较大。

    虽然,可以从反事实的角度来学习和评估模型。但是这些反事实方法的一些假设很难满足。例如,要求观测到全部confounder。并且,最终的曝光可能有很大的噪声,甚至没有被完全记录。

    基于此,作者提出一种基于对抗训练的方法,把因曝光机制不明确导致的估计不确定性考虑进来。

    具体做法

    首先,形式化的定义一下问题,

    • 用户和物品特征,可以是one-hot也可以是embedding,被记作\boldsymbol{x}_u, \boldsymbol{z}_i
    • 物品的曝光情况,记作O_{u,i} \in \{ 0, 1 \}
    • 用户-物品元组的反馈,记作Y_{u,i},也可以是点击,也可以是评分。
    • 数据集记作\mathcal{D},其中负样本可以是全部未交互物品,也可以是负采样的样本。
    • 推荐模型,记作f_{\theta}, g_{\psi},其中作者用g作为曝光估计模型(实际上可以理解为线上的推荐模型,作者利用两个模型来对抗学习)。
    • 模型损失,记作\delta(y_{u,i}, f_{\theta}(u,i)),其中y_{u,i}是观测的用户反馈。

    整个形式化比较常规,值得注意的是,p_g(O_{u,i}|\boldsymbol{x}_u, \boldsymbol{z}_i)表示在模型g的情况下,物品被曝光给该用户的概率p(Y_{u,i}| O_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)表示用户可能的反馈的概率,当观测到随机变量O_{u,i}时,该概率和曝光机制是相互独立的(也就是所谓的没有曝光的confounder了)

    Supervised learning for feedback data.

    假设Y_{u,i} \in \{-1, 1 \}表示用户的隐式反馈,监督学习通过优化如下图所示的损失学习模型参数。此时,没有考虑曝光的机制。其中,\phi(\cdot)常用的损失函数。

    supervised loss

    当考虑曝光机制的影响时,监督学习的损失与如下图所示的两个联合概率有关,即在不同曝光情况下,用户的正负反馈的概率。

    supervised loss with exposure mechanism

    作者分析当曝光机制故定时,通过优化监督学习损失函数得到的最优的模型只与上述两个联合概率有关系,详细证明参见附录,其中,如claim 1所述\alpha^*_\phi是某个依赖\phi的函数。

    Claim 1

    值得注意的是,上述联合概率可以被分解为如下图所示的比率式。

    factorized joint distribution

    在这种情况下,由claim 1可以得到如下图所示的最优模型和条件概率的关系,可以看出最优模型是在观测曝光情况下正负反馈的比值,注意此时曝光机制必须可以观测并且固定

    optimal model implied from claim 1

    通过如上分析,可以得到如下结论,

    • 最优损失函数-D_c(P^{(1)}||P^{(-1)})与曝光机制和用户偏好相关。
    • 最优的模型f^*_{\theta}仅仅与用户偏好有关系,即f^*_{\theta}p(Y_{u,i}| o_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)的函数,**注意,这里是小写o是观测值而不是随机变量。

    然而,p(O_{u,i}|\boldsymbol{x}_u, \boldsymbol{z}_i)通常是未知的。因此,如果观测数据是在不同的曝光机制下收集的,推荐模型预测出不同的用户偏好。这种不一致主要是由于在监督学习中没有考虑未知的曝光机制造成的。

    本节介绍了作者研究的问题背景,描述了作者对监督学习的分析思路和结论,即,在没有确定的曝光机制信息的情况下,估计的结果受到曝光机制的影响,直接通过观测来估计是有偏差的。

    心得体会

    曝光机制未知

    通常我们假设推荐系统的曝光机制是未知的,虽然可以利用模型来从观测数据中估计曝光的概率,也就是倾向性得分,但是,个人理解,这个值可能是有偏差的,毕竟观察到的曝光数据只是一部分,我们没有线上推荐模型的全部信息。

    另一种方法是,记录下线上模型的预测概率。然而最终的曝光杂糅了最后的运营规则等其他噪声影响,这些噪声,讲道理应该也要被模型完整模拟才行。

    相关文章

      网友评论

        本文标题:因果推断推荐系统工具箱 - ACL(一)

        本文链接:https://www.haomeiwen.com/subject/znmlqrtx.html