推荐机制（协同过滤算法）

作者: 路洛洛 | 来源:发表于2017-04-06 15:02 被阅读0次

【推荐系统算法实战】协同过滤 CF 算法（Collaborati
算法笔记（2）-推荐系统之协同过滤算法
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法
推荐系统经典算法之协同过滤
推荐系统-协同过滤算法
算法笔记（1）-常用推荐算法总结
个性化推荐系统设计（2.1）推荐算法介绍
Spark机器学习实战（四）电影推荐算法 - 协同过滤
基于协同过滤的推荐算法

今天要讲的主要内容是协同过滤，即Collaborative Filtering，简称CF。

Contents

1. 协同过滤的简介

2. 协同过滤的核心

3. 协同过滤的实现

1. 协同过滤的简介

关于协同过滤的一个最经典的例子就是看电影，有时候不知道哪一部电影是我们喜欢的或者评分比较高的，那

么通常的做法就是问问周围的朋友，看看最近有什么好的电影推荐。在问的时候，都习惯于问跟自己口味差不

多的朋友，这就是协同过滤的核心思想。

协同过滤是在海量数据中挖掘出小部分与你品味类似的用户，在协同过滤中，这些用户成为邻居，然后根据他

们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题

（1）如何确定一个用户是否与你有相似的品味？

（2）如何将邻居们的喜好组织成一个排序目录？

协同过滤算法的出现标志着推荐系统的产生，协同过滤算法包括基于用户和基于物品的协同过滤算法。

2. 协同过滤的核心

要实现协同过滤，需要进行如下几个步骤

（1）收集用户偏好

（2）找到相似的用户或者物品

（3）计算并推荐

收集用户偏好

从用户的行为和偏好中发现规律，并基于此进行推荐，所以如何收集用户的偏好信息成为系统推荐效果最基础

的决定因素。用户有很多种方式向系统提供自己的偏好信息，比如：评分，投票，转发，保存书签，购买，点

击流，页面停留时间等等。

以上的用户行为都是通用的，在实际推荐引擎设计中可以自己多添加一些特定的用户行为，并用它们表示用户

对物品的喜好程度。通常情况下，在一个推荐系统中，用户行为都会多于一种，那么如何组合这些不同的用户

行为呢？基本上有如下两种方式

（1）将不同的行为分组

一般可以分为查看和购买，然后基于不同的用户行为，计算不同用户或者物品的相似度。类似与当当网或者

亚马逊给出的“购买了该书的人还购买了”，“查看了该书的人还查看了”等等。

（2）不同行为产生的用户喜好对它们进行加权

对不同行为产生的用户喜好进行加权，然后求出用户对物品的总体喜好。

好了，当我们收集好用户的行为数据后，还要对数据进行预处理，最核心的工作就是减噪和归一化。

减噪：因为用户数据在使用过程中可能存在大量噪音和误操作，所以需要过滤掉这些噪音。

归一化：不同行为数据的取值相差可能很好，例如用户的查看数据肯定比购买数据大得多。通过归一化，才能

使数据更加准确。

通过上述步骤的处理，就得到了一张二维表，其中一维是用户列表，另一维是商品列表，值是用户对商品的喜

好。还是以电影推荐为例，如下表

找到相似的用户或物品

对用户的行为分析得到用户的喜好后，可以根据用户的喜好计算相似用户和物品，然后可以基于相似用户或物

品进行推荐。这就是协同过滤中的两个分支了，基于用户的和基于物品的协同过滤。

关于相似度的计算有很多种方法，比如常用的余弦夹角，欧几里德距离度量，皮尔逊相关系数等等。而如果采

用欧几里德度量，那么可以用如下公式来表示相似度

在计算用户之间的相似度时，是将一个用户对所有物品的偏好作为一个向量，而在计算物品之间的相似度时，

是将所有用户对某个物品的偏好作为一个向量。求出相似度后，接下来可以求相似邻居了。

计算并推荐

在上面，我们求出了相邻用户和相邻物品，接下来就应该进行推荐了。当然从这一步开始，分为两方面，分别

是基于用户的协同过滤和基于物品的协同过滤。我会分别介绍它们的原理

（1）基于用户的协同过滤算法

在上面求相似邻居的时候，通常是求出TOP K邻居，然后根据邻居的相似度权重以及它们对物品的偏好，

预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表进行推荐。

（2）基于物品的协同过滤算法

跟上述的基于用户的协同过滤算法类似，但它从物品本身，而不是用户角度。比如喜欢物品A的用户都喜

欢物品C，那么可以知道物品A与物品C的相似度很高，而用户C喜欢物品A，那么可以推断出用户C也可能

喜欢物品C。如下图

上面的相似度权重有时候需要加入惩罚因子，举个例子，在日常生活中，我们每个人购买卫生纸的的频率比

较高，但是不能说明这些用户的兴趣点相似，但是如果它们都买了照相机，那么就可以大致推出它们都是摄

影爱好者。所以像卫生纸这样的物品在计算时，相似度权重需要加上惩罚因子或者干脆直接去掉这类数据。

适用场景

对于一个在线网站，用户的数量往往超过物品的数量，同时物品数据相对稳定，因此计算物品的相似度不但

计算量小，同时不必频繁更新。但是这种情况只适用于电子商务类型的网站，像新闻类，博客等这类网站的

系统推荐，情况往往是相反的，物品数量是海量的，而且频繁更新。所以从算法复杂度角度来说，两种算法

各有优势。关于协同过滤的文章，可以参考这里：http://www.tuicool.com/articles/6vqyYfR

网友评论

本文标题：推荐机制（协同过滤算法）

本文链接：https://www.haomeiwen.com/subject/ldlqattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

推荐机制（协同过滤算法）

相关文章

【推荐系统算法实战】协同过滤 CF 算法（Collaborati

算法笔记（2）-推荐系统之协同过滤算法

octave实现协同过滤推荐算法

octave实现协同过滤推荐算法

推荐系统经典算法之协同过滤

推荐系统-协同过滤算法

算法笔记（1）-常用推荐算法总结

个性化推荐系统设计（2.1）推荐算法介绍

Spark机器学习实战（四）电影推荐算法 - 协同过滤

基于协同过滤的推荐算法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读