文章名称
【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy-Value Learning for Recommendation
核心要点
文章旨在提升现有基于off-policy或反事实学习的推荐模型的效率。作者分析首先分析现有方法在随机的、系数的奖励下效果不佳的原因,并提出一种IPS方法的对数变种,解决该问题。进一步,通过提升优化目标的凸性加速模型的优化求解。此外,基于一定假设,可以将CRM和MLE的目标结合,共同优化,提出了Dual Bandit。
上一节描述了作者研究的问题背景以及现有方法的问题,回顾了bandit feedback的形式化定义以及所谓的value-based方法。本节继续介绍policy-based方法以及作者提出的DB方法。
方法细节
问题引入
如前所述,作者指出已有的基于监督学习的value-based方法在动作空间较大时,上下文特征与动作所组成的元组会比较系数,某个元组的出现概率会非常小,导致在进行重要性采样时方差比较大,利用现有数据对新策略进行评估的结果不稳定。因此需要更稳定、鲁邦的方法。那么,policy-based方法为什么不可行,作者又如何改进的?
具体做法
首先回顾一下问题的定义,
表示logged bandit feedback,其中每一个样本表示为元组
,分别表示上下文向量,被选取的动作标号,该动作被选取的概率,以及最终的收益。作者提到利用
来表示被选取的动作的one-hot向量。
- 线上策略记作
(实际上是一种从上下文到动作映射,
,所谓动作也就是可以被推荐的物品。),每一个样中的
。
Policy-based Approaches
与value-based方法在给定上下文-动作元组的情况下,建模点击概率(the value)不同于,policy-based方法不具体估计每种
的值,而是直接把上下文映射
到具体的
(说到这里,有点像RL了,其实RL的value-base实际上也是估计了动作-状态元组的return的)。例如,contextual bandit方法,利用如下公式,直接生成对应的动作。其中,
是模型的参数。
![](https://img.haomeiwen.com/i1767638/ace9e982563e47fd.png)
上述公式是基于指数模型的,当然可以采用其他建模方式。该模型的目标是在给定上下文下,返回能够得到最优收益的动作
。其中,收益可以是点击数量。通过如下图所示的公式,可以基于线上策略
的logged bandit feedback,评估目标策略
的效果。同时,利用公式6(确定性的策略)得到最优的动作。
![](https://img.haomeiwen.com/i1767638/ada4ff91b15a525a.png)
为解决IPS方法的高方差问题,POEM[47],BanditNet[17]以及PIL-IML[27]被提出,这些方法被统称为Counterfactual Risk Minimisation (CRM)(类)方法。他们引入方差消除项(sample variance penalisation (SVP),例如,self-normalisation (SNIPS) or imitation learning (IML)来消除高方差的影响。实际上,它们是在限制新策略不会偏离线上策略太远,从而避免稀疏动作的不确定性带来的高方差。因此,会存在上一篇提到的,很难快速优化的问题,或者优化的收益有限。
此外,作者一些方法利用RL中用到的REINFORCE[50]来解决top-推荐[4]和两阶段推荐流程优化[26]的问题。但是在作者的研究场景下(单个物品的点击和不点击),这些方法和IPS方法的表现没差。
Doubly Robust (DR)[6],More Robust Doubly Robust (MRDR)[7],Continuous Adaptive Blending (CAB)[44]等方法需要引入额外的收益估计模型,或者评估性能优于选取最优策略的性能,因此,不适用当前的研究场景(个人感觉,其实就是太复杂了,作者没有跟他们比较)。另外,online优化的方法,例如,contextual bandit,无法做到离线评估。
作者还提到,贝叶斯方法[33, 37]是一个很有潜力的方向,在其他场景取得了很不错的结果。
回顾一下,value-based损失函数和动作选取策略。可以看出,如果。那么,上述policy-based策略(公式6)和value-based策略(公式3)实际上是一样的。虽然两种方法要优化的损失(公式1和公式5)是完全不同的。
![](https://img.haomeiwen.com/i1767638/a0bddce070e2b9f8.png)
![](https://img.haomeiwen.com/i1767638/2cab56931d1c3ebc.png)
值得注意的是,
- value-based方法(这里是MLE)忽略了倾向性得分(或者说忽略偏差)直接建模每种情况(每种动作)的目标收益(点击和不点击);
- policy-based方法(这里是contextual bandit)则利用倾向性的分纠正偏差,利用点击数据直接寻找新的最优策略,但是忽略了没有点击的数据。
作者也基于想到了结合两者,融合两者的优势,提升效果。
本节继续介绍policy-based方法的细节以及其他变种方法,回顾了valube-base方法和policy-base方法的异同。下一节介绍作者提出的DB方法。
心得体会
贝叶斯方法
贝叶斯方法一直是一个非常有前途的方向,在实际场景中,其实有一些先验知识是可以引入的。但是贝叶斯方法理论性相对复杂,研究也比较少(或许是我孤陋寡闻),所以工业界用的非常少。但是作者提到贝叶斯方法在小样本上效果不错(由于有先验),也许是可以尝试的。
文章引用
[4] M. Chen, A. Beutel, P. Covington, S. Jain, F. Belletti, and E. H. Chi. 2019. Top-K
Off-Policy Correction for a REINFORCE Recommender System. In Proc. of the 12th ACM International Conference on Web Search and Data Mining (WSDM ’19). ACM, 456–464.
[6] M. Dudík, J. Langford, and L. Li. 2011. Doubly Robust Policy Evaluation and Learning. In Proc. of the 28th International Conference on International Conference on Machine Learning (ICML’11). 1097–1104.
[7] M.Farajtabar,Y.Chow,andM.Ghavamzadeh.2018.MoreRobustDoublyRobust Off-policy Evaluation. In Proc. of the 35th International Conference on Machine Learning (ICML’18, Vol. 80). PMLR, 1447–1456.
[17] T.Joachims,A.Swaminathan,andM.deRijke.2018.DeepLearningwithLogged Bandit Feedback. In Proc. of the 6th International Conference on Learning Repre- sentations (ICLR ’18).
[26] J. Ma, Z. Zhao, X. Yi, J. Yang, M. Chen, J. Tang, L. Hong, and E. H. Chi. 2020. Off-Policy Learning in Two-Stage Recommender Systems. In Proc. of the 2020 World Wide Web Conference (WWW ’20). ACM.
[27] Y. Ma, Y. Wang, and B. Narayanaswamy. 2019. Imitation-Regularized Offline Learning. In Proc. of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) (AIStats ’19, Vol. 89). PMLR, 2956–2965.
[33] S.Rendle,L.Zhang,andY.Koren.2019.OntheDifficultyofEvaluatingBaselines:
A Study on Recommender Systems. arXiv:1905.01395 [cs.IR]
[37] R. Salakhutdinov and A. Mnih. 2008. Bayesian Probabilistic Matrix Factorization Using Markov Chain Monte Carlo. In Proc. of the 25th International Conference
on Machine Learning (ICML ’08). ACM, 880–887.
[44] Y. Su, L. Wang, M. Santacatterina, and T. Joachims. 2019. CAB: Continuous Adaptive Blending for Policy Evaluation and Learning. In International Conference on Machine Learning (ICML’19). 6005–6014.
[47] A. Swaminathan and T. Joachims. 2015. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning
Research 16, 1 (2015), 1731–1755.
[50] R.J.Williams.1992.SimpleStatisticalGradient-FollowingAlgorithmsforConnec-
tionist Reinforcement Learning. Machine Learning 8, 3–4 (May 1992), 229–256.
网友评论