还是推荐电影，这次是基于物品的协同过滤

作者: 程sir | 来源:发表于2016-02-01 16:01 被阅读1235次

还是推荐电影，这次是基于物品的协同过滤
两种基于邻域的推荐算法
推荐系统
协同过滤算法（UserCF + ItemCF）
Mahout | 协同过滤算法
Spark机器学习实战（四）电影推荐算法 - 协同过滤
推荐系统简介
第十章数据推荐算法——基于Item-Based协同过滤推荐
Python实现推荐系统
开源工具框架

基于用户的协同过滤，适用于物品较少，用户也不太多的情况。如果用户太多了，针对每个用户的购买情况来计算哪些用户和他品味类似，效率很低下。如果商品很多，每个用户购买的商品重合的可能性很小，这样判断品味是否相似也就变得比较困难了。

还有一类智能推荐算法，是“基于物品的协同过滤”。消费者每天都在买买买，行为变化很快，但是物品每天虽然也有变化，但是和物品总量相比变化还是少很多。这样，就可以预先计算物品之间的相似程度，然后再利用顾客实际购买的情况找出相似的物品做推荐。

由于物品整体变化不大，所以这个相似程度不用每天都算，节省计算资源；同时，可以只给某一样商品只备选5个相似商品，推荐时只做这5个相似物品的加权评分，避免对所有商品都进行加权评分，以避免大量计算。这么说有点抽象，还是看一个例子吧。

还是用上一篇文章的例子，目的是给A推荐一部电影

Score

首先是计算电影之间的相似度，方法还是有很多，这次用Pearson相关系数来做，公式为：

pearson.png

公式看起来复杂，其实可以分成6个部分分别计算就好了，我们选《寻龙诀》（X）和《小门神》（Y）作为例子，来算一下相似度，则
X=（3.5，5.0，3.0）
Y=（3.0，3.5，2.0）
数字就是评分，因为只有三个人同时看了这两个电影，所以X，Y两个向量都只有三个元素。按照公式逐步计算：

1. x和y的乘积再求和：3.5×3.0+5.0×3.5+3.0×2.0 = 34
2. x求和乘以y求和，再除以个数：（（3.5+5.0+3.0）×（3.0+3.5+2.0））/ 3 = 32.58
3. x的平方和：3.5^2+5.02+3.0^2 = 46.25
4. x和的平方除以个数：（（3.5+5.0+3.0）^2）） / 3 = 44.08
5. y的平方和：3.0^2+3.52+2.0^2 = 25.25
6. y和的平方除以个数：（（3.0+3.5+2.0）^2）） / 3 = 24.08

最终把这几块的结果带入到整体的公式中：得出相关系数为0.89。

按照这种方法，需要两两计算电影的相似性，最终结果如下表：