推荐系统遇上深度学习(八十九)-推荐系统中的反馈循环

1、背景

推荐算法使用用户和物品的历史交互数据进行学习，并产生个性化的推荐结果，但个性化推荐结果中存在一定的偏置，偏置主要来自于两方面：

1）输入数据中的偏置，热门物品占据了大部分的数据，而大多数的长尾物品没有用户的交互信息。下图显示了movielens数据中物品的分布情况：

2）推荐算法会进一步加剧这种数据分布中的偏置，由于算法更多的学习到热门物品的信息，会将这些热门物品不断进行推荐，甚至推荐给可能对此不太感兴趣的用户

随着时间的推移，推荐算法将热门物品更多的推荐给用户，并不断收集用户对于热门物品的反馈信息并加入到训练集中，使得数据分布更为不平衡；随后再使用这批数据进行训练，再推荐物品给用户，这会导致推荐结果越来越集中在热门物品中。这种现象我们也称为反馈循环(feedback loop)。

反馈循环的存在，除了会使得推荐结果更为集中在热门物品之外，还会不断改变用户的偏好表征，使得推荐算法越来越难以捕获用户真正的偏好。

接下来，通过实验来进一步说明反馈循环所带来的推荐结果的变化情况。

2、实验分析

这里，论文通过MovieLens 1M数据，首先对数据进行简短的说明。在这份数据中，包含4331名男性用户75w的数据和1709明女性用户的24w的数据。数据集的密度为4.468%（有评分的数据的占比）。

同时，论文通过UserKNN（user-based collaborative filtering）、BPR(bayesian personalized ranking)、基于热度的推荐三种方法进行实验。

论文首先验证了由于反馈循环的存在，推荐结果不断集中的现象，下图中左图代表了随着迭代轮次的增加，推荐列表中物品的平均受欢迎程度（对于该物品有评分的用户的占比），而右图代表了随着迭代轮次的增加，至少出现在推荐列表中一次的物品的占比。可以看到，随着迭代的不断进行，推荐物品的流行程度越来越高，推荐结果更多的集中在小部分的物品中：

上文提到，反馈循环会不断改变用户的偏好表征，使得推荐算法越来越难以捕获用户真正的偏好。下图左图代表了随着迭代的进行，用户打分分布（在不同类型的电影上的打分分布）与最初的打分分布的KL散度，KL散度越大，用户打分分布与最初打分分布的差异越大。可以看到，随着迭代的进行，用户的打分分布与初始打分分布差异越来愈大，推荐系统越来越难以挖掘用户的真正兴趣偏好。

下图中右图代表了不同性别的用户的打分分布的KL散度，可以看到，随着迭代的进行，男性用户和女性用户的打分分布逐渐趋同。

进一步，下图左图代表随着迭代轮次的增加，男性用户和女性用户的打分分布和所有用户初始的打分分布的KL的散度，可以看到，女性用户的打分分布与所有用户的初始打分分布的KL散度越来越小，而男性用户则缓慢增加。右图代表了随着迭代轮次的增加，不同性别的用户的打分分布与该性别用户的初始打分分布的KL散度，可以看到，女性用户的KL散度增加明显高于男性用户。由于男性用户占所有用户的大多数，因此可以说，用户数量较小的类别，其打分分布更容易受到反馈循环的影响。

3、反馈循环的缓解

周国睿老师在其文章：《我眼中推荐系统走向下一阶段最重要的三个问题》（https://zhuanlan.zhihu.com/p/79853964）中对这一问题作了简要的解答，这里直接进行引用：

可能有同学会觉得这就是一个简单的系统需要explore问题。然而推荐系统涉及到商业价值，explore变得不是这么简单。我们需要：1. 衡量explore带来的收益和成本 2. 高效的explore方法。1和2在学术界都有非常多的研究，但是在一个快速迭代的工业系统中，这两个问题变得相当艰难。这要求我们必须在很短的周期内explore产生收益并可以衡量explore的效果，不然就得拥抱系统的变化，很多时候可能还得拥抱人事组织的变化 : )

好了，本文就介绍到这里了，感兴趣的同学可以找到原文，进行进一步的阅读和理解。