美文网首页因果推断推荐工具箱
因果推断推荐系统工具箱 - Deconfounded Recom

因果推断推荐系统工具箱 - Deconfounded Recom

作者: processor4d | 来源:发表于2022-01-11 23:14 被阅读0次

文章名称

【RecSys-2020】【University of Tuebingen】Causal Inference for Recommender Systems

核心要点

文章旨在利用因果推断的框架提高推荐系统效率,只推荐被曝光后用户才会看的电影,而非曝光不曝光都会被观看的电影,也就是所谓的观看提升量。同时,利用因果推断的框架解决推荐模型经常遇到的混淆变量的问题。

方法细节

问题引入

作者认为,推荐模型天生应该是因果的。推荐模型应该推荐那些不推荐用户就不会看的电影。此时,一般模型会遇到混淆变量的影响,而无法直接从观测数据中有效的估计出因果效应。基于因果推断的理论,需要我们观测到所有混淆变量,才能准确反应因果效应[19],但是我们无法确认是否观测了所有混混淆变量[8]。

具体做法

作者提出deconfounded recommender,一种尝试纠正经典矩阵分解以解决未观察到的混杂问题的方法。首先,形式化的定义一下问题,

  • 用户是否被曝光了电影,记作a_{ui}可以被认为是treatment
  • 用户和物品的嵌入表示,分别记作\theta_u, \beta_i
  • 用户对物品的反馈可以被形式化为y_{ui}两个potential outcome,y_{ui}(1), y_{ui}(0),分别表示被曝光(be made to watch)和没有被曝光情况下的用户反馈
  • 作者用如下图所示的建模上述outcome,其中a表示treatment。该公式表示,当a=1时,模型假设用户的反馈服从正态分布,均值是用户和物品表示的内积(模型是矩阵分解的架构);而a=0是,模型的均值是0。
    outcome model

如果直接拟合观测数据,上述模型退化为传统的probabilistic matrix factorization[17]。这种情况下,模型只考虑观测到的点击数据,忽略了未暴露的物品。

作者认为,从因果推断的角度,如果要无偏估计y_{ui}(1),需要满足如下图所示的ignorability的假设。

ignorability

其中,\boldsymbol{0}, \boldsymbol{1}, \boldsymbol{a_u}分别是在建立在所有物品上的曝光(把所有物品上的曝光或者不曝光作为treatment,是一个0/1的向量),其形式如下图所示。

treatment in vector

显然,要求\boldsymbol{a_u}独立于y_{ui}(1), y_{ui}(0)是不合理的,因为,如地域和题材等混淆变量,会被推荐模型利用,一定会影响电影的曝光,也会影响用户对它们的评分。

因此,用户的偏好\theta_u通常会被错误的估计。此时,需要我们控制confounder[18, 21]。假设,confounder为w_u,unconfounderness的假设可以表述如下,

unconfounderness

此时,潜在因果的估计模型如下图所示,其中\epsilon_{ui} \sim \mathcal{N}(0, \sigma^2)

outcome model with confounder

但是,上述条件要求所有confounder都被观测到,被称为strong ignorability,通常是不可测量的[8]。

deconfounded recommender

作者通过建模曝光数据,来带代替未观测的混淆变量(因为曝光是与无观测的混淆变量相关,是他们的一种可观测表现)。作者表示,从causal inference的角度看,推荐系统是一个multiple treatment的问题,每一个用户-物品元组的曝光a_{ui}是一个treatment,而所有物品上的曝光被看做是一个treatment向量,\boldsymbol{y}_{u}(1)才是真正的outcome,当然也是个向量。但是对所有物品的曝光是个组合问题,导致只能观测到部分组合,并且不知道哪些因素实际影响了这个组合,所以存在未观测变量。

基于建模曝光的思想,作者把deconfounded recommender分为两个步骤,

  • 建模曝光数据。作者利用Poisson factorization[5]来建模曝光数据,Poisson factorization假设数据来源于泊松分布,具体公式如下图所示,其中\pi_u, \gamma_i是非负的K维向量,分别表示用户偏好和物品特性。作者表示,PF是非负矩阵分解的变种。

    PF Process assumption
  • 重新估计曝光。利用训练好的PF模型替换未观测的混淆变量,可重建曝光矩阵\hat{a}_{ui} = \mathbb{E}_{PF}[\pi_u\top\lambda_i|\boldsymbol{a}]。其中,其中\boldsymbol{a}是观察到的所有用户的曝光。值得注意的是,期望在PF模型估计的所有曝光a_{ui}上计算。并且后验均值\pi_u\top\lambda_i被当做confounder的替换值[26]

  • 计算outcome。最后,利用如下图所示的公式,基于重新估计的曝光矩阵\hat{a}(包括了替换后的confounder的影响)来计算outcome(点击)。其中,系数γ_u用来调节\hat{a}对outcome的影响程度。**值得注意的是,参数γ_u在在实际观测到的点击数据a_{ui}上(或评分)和未点击的数据上共同训练,而除了参数γ_u以外的其他参数只在实际观测到的点击数据上训练(未点击的数据意味着a_{ui}=0, \hat{a} \simeq 0)。预测时,利用y_{ui}(1)作为预估的点击(或评分)。

    predict outcome

本节讲解了作者研究的问题背景,同时描述了解决方法的流程细节。下一节继续介绍方法的理论分析。

心得体会

观看提升量

作者期望最大化的,其实是电影被观看的概率。从这个角度定义的出发,计算提升量。提升是由于推荐这个动作带来的。事实上,一个电影是否被观看以及提升,真的能带来全局最优么?我们把所有提升量最高的电影推荐给了用户,但是占用了用户的观看时长,可能用户不喜欢最终效果会下降。反而是那些用户自己也会搜的,但是有一时想不起来的更反应用户喜好?

也许从作者的角度,提升代表了给用户带来新鲜感或者被推荐的体验感,因此增加用户粘性提升平台收入。而不仅仅是为了符合因果推断的框架而已。

未观测变量

个人理解,不管是single treatment还是multiple treatment,未观测变量出现的根本原因是不可控的和未知的环节,比如推荐的工程链路,模型的异常,未考虑到的case,还有那些不可能被电脑记录的人的情绪等。unmearued confounder处处存在。

文章引用

[5] Prem Gopalan, Jake M Hofman, and David M Blei. 2015. Scalable Recommenda- tion with Hierarchical Poisson Factorization.. In UAI. 326–335.

[8] Paul W Holland, Clark Glymour, and Clive Granger. 1985. Statistics and causal inference. ETS Research Report Series 1985, 2 (1985).

[17] Andriy Mnih and Ruslan R Salakhutdinov. 2008. Probabilistic matrix factorization. In Advances in neural information processing systems. 1257–1264.

[18] Judea Pearl. 2009. Causality. Cambridge University Press.

[19] Paul R Rosenbaum and Donald B Rubin. 1983. The central role of the propensity score in observational studies for causal effects. Biometrika 70, 1 (1983), 41–55.

[21] Donald B Rubin. 2005. Causal inference using potential outcomes: Design, modeling, decisions. J. Amer. Statist. Assoc. 100, 469 (2005), 322–331.

[26] Yixin Wang and David M Blei. 2018. The blessings of multiple causes. arXiv preprint arXiv:1805.06826 (2018).

相关文章

网友评论

    本文标题:因果推断推荐系统工具箱 - Deconfounded Recom

    本文链接:https://www.haomeiwen.com/subject/dvrbcrtx.html