用Mapreduce实现推荐系统
提纲
- 什么是推荐系统
- 如何设计一个推荐系统
- mapreduce实现推荐系统
什么是推荐系统
- 当用户没有明确搜索目标时,预测用户可能感兴趣的物品并进行推荐的系统 ->电商网站;
- 当用户有明确搜索目标时,协助用户找到找到他们感兴趣的信息 ->搜索引擎。
设计一个推荐系统
针对第一类推荐,以电影推荐为例,,数据集中包含用户ID、电影ID、电影评分
1. 推荐系统中的算法;
- 基于用户的协同过滤算法(User CF);
- 基于物品的系统过滤算法(Item CF)
- 。。。
基于用户的协同过滤算法(User CF)
- 找到和目标用户兴趣相似的用户集合;
-
找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
基于物品的系统过滤算法(Item CF)
- 计算物品之间的相似度;
-
根据物品的相似度和用户的历史行为给用户生成推荐列表。
2. 选择其中适用一种算法;
这里采用的是Item CF。
- 电影网站中,用户的数量远远大于物品的数量,找到相似用户的工作远远大于找到相似物品的工作量;
- 用户的兴趣可能发生改变,这时需重复计算物品的相似度,而物品不会频繁发生变化,降低了计算量;
- 根据用户的历史数据,更有说服力。
如何实现Item CF
如何定义不同电影之间的关系?
- 基于用户的角度:历史观看记录、历史评分记录、喜爱列表。
a. 如果某一个用户同时观看了2部类别差别很大的电影,这不能将这2部电影归为相似,因为大部分的用户肯定不会同时观看2部差别很大的电影;
b. 如果用户给电影打分,即便评分很低,也认为两个电影相似,因为用户是凭着自己的喜好去看的,评分低是由于本身的导演、演员、剧情等其他因素造成的。
- 基于电影的角度:电影类别、电影制造厂商。
如何体现不同电影间的相似性?
根据每个用户的历史观看记录,建立邻接矩阵。
邻接矩阵中,对角线表示观看过该电影的用户总数;非对角线表示同时观看过两部电影的用户总数。
虽然找到了相似电影,但是此时不能直接就推荐给用户,因为用户可能只是对该电影感兴趣,但是不一定看完以后会喜欢该电影。因此仍然额外需要考虑用户的历史评分。
如何区分不同电影间的差异性?
根据用户的历史评分记录,区别对待每个用户,为每个用户建立评分矩阵;
这里B对M4、M5的评分不能默认为0,可以设置为B评分电影的平均分(3+7+8)/3。
- 矩阵计算得到推荐结果。
对最初的邻接矩阵进行改进
- 归一化处理的目的在于更加精确的表示两部电影间的相似性。以M1、M3之间和M2、M3之间的关系为例。如果M1与M3之间的相似度为1,M2与M3之间的相似度为2。表面上,M2与M3的相似度更高,但是,假设M1与其他电影的相似度为0,M2除与M3以外还与其他电影有关系。显然,我们不能认为绝对值大的相似度就一定高。
-
引入归一化后,电影间的相似度比较建立在全局关系上,相似度的大小是一个相对值。除此之外,归一化矩阵还体现了电影间的不对等关系,即M1对M2的关系与M2对M1的关系不是相等的概念,类似生活中的女神、屌丝间的关系,屌丝对应只有一个女神,女神对应着多个屌丝。
为甚么要做矩阵相乘(本质/意义):基于电影间的相关性和用户评分的差异性得到一部电影可能带给另一部电影的得分。以第一行M1对所有其他电影的关系为例,M2对M1的关系/权重是2/6,B对M2的评分是7,即M2有2/6的概率给M1带来7分。
注意:
结果中B对M1的评分反而高于对M2的评分是因为评分矩阵中M4、M5初始设置的0,导致一个错误的结果。
3. 用Mapreduce实现。
input文件应该存储什么数据结构?矩阵?
No!!!。1.浪费空间,存在许多空的单元;2.不利于修改,增加/减少一个用户就需要修改整个矩阵。
这里采用user_id,movie_id,rating的结构存储初始数据。
如何通过上述数据结构得到邻接矩阵?
1.数据预处理,建立用户历史观看过的矩阵->根据用户id拆分数据,再根据相同用户id合并数据
-
根据用户id拆分数据 ->Mapper(key=userId,value=movieId+rating)
-
根据相同用户id合并数据 ->Reducer
-
建立邻接矩阵
疑问:
1.如何计算一部电影被多少人看过?
2.如何计算两部电影同时被多少人看过?
Mapper
图中只考虑了前2行的情况,省略了后面2行的情况
Reducer
网友评论