论文:Personalized Approximate Pareto-Efficient Recommendation
会议:ACM WWW '21: Proceedings of the Web Conference 2021 April 2021
视频:https://www.youtube.com/watch?v=RUYZXkQjjKc
Movation
- 推荐系统的调优往往有多个目标,而且这些目标往往都是矛盾的,冲突的
-
同时优化这些目标变得非常有挑战性
Pareto effciency
- 帕累托最优:是最好的状态,所有的目标都达到最优了,没有一个目标能在不牺牲其他目标的情况下继续提升了
- dominate:如图 A dominate C ,且 Bdominate C
- 如果没有其他任何点可以dominate A了,那么称A 达到了帕累托最优
Limitation of existing Pareto methods
-
在现实的MOR系统中(多目标推荐),个性化通常是item级别的。比如使用共享的多目标权重来应用到所有的用户和物品中
- 但本文期望把一些个性化特征的优化带到 objective 级别
实现
提出PAPERec框架
- 提出了一种新型的框架 Personalized Approximate Pareto-Effcient Recommendation。
-
不同的用户可能会更关注不同的目标
- 用户可以有个性化的 多目标权重
- 构建了两个 single-objective models 针对两个目标做预估(CTR点击率和Dell Time用户时长)
- 提出了一种 Pareto-oriented reinforcement learning modules,来学习个性化的目标权重,RL模型的reward主要是用于优化到帕累托最优
-
用MGDA (Multiple gradient descent algorithm)证明收敛,满足KTT条件。如果一个Pareto-oriented RL满足Pareto effcient,也能满足Pareto stationarity,如果能够优化到梯度等于0或者达到最小值,也就找到了帕累托最优点
-
建模
(1)State:第t个状态代表,在已经推荐了t-1个项目之后,需要推荐第t个项目的状态,会考虑上下文信息
(2)Action:给出一系列objective weights,在推荐列表的第t个位置
(3)Reward:所有objective的梯度的权重和 的 L2-norm
-
模型架构
输入:用户信息、可能的行为、上下文、历史的目标权重
输出:目前的目标权重
算法:DDPG
左侧图像使用神经网络 objective model来预估目标值
个性化的目标权重训练,使用可扩展的方式训练
Experiment
- dataset:真实世界集成的推荐数据集,从微信看一看里获取的,大概1.5B
- 在离线和在线环境都做了实验,回答3个研究问题
(1)提出的PAPERec算法怎么打败SOTA算法
(2)PAPERec在线上系统中如何运作,处理多样的多目标和衡量指标?
(3)个性化的目标权重学到了什么,能反映什么,是否合理?
实验显示新算法有明显提升
也做了在线的ABTest
做了一些分析,视频会有更高的DT权重
Contributions
- 提出了一种新颖的PAPERec框架,应该是第一个提出在objective级别做个性化调优至帕累托前沿的推荐系统
- 设计了一个新型的Pareto-oriented RL模块,来学习个性化的目标权重,可以通过直接最小化多目标梯度的L2-norm来达到 Pareto stationarity
- 做了充分的离线和在线评估实验,来验证objective-level的个性化的重要行,和PAPERec算法在多目标推荐系统中的有效性。并且已经应用于微信看一看产品,影响了millions的用户
网友评论