协同过滤

作者: 58506fd3fbed | 来源:发表于2020-10-21 22:25 被阅读0次

协同过滤（网新关键词）
【推荐系统算法实战】协同过滤 CF 算法（Collaborati
算法笔记（2）-推荐系统之协同过滤算法
2018-06-20 java实现协同过滤推荐算法（day1）
协同过滤科普(3)
推荐系统-协同过滤算法
基础概念
R语言文本分析(3) 协同过滤数据
推荐算法--协同过滤
推荐算法－CF

一、基本概念

定义：协同过滤，基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐)，一般是仅仅基于用户的行为数据（评价、购买、下载等）,而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。

算法分类：目前应用比较广泛的协同过滤算法是基于邻域的方法，而这种方法主要有下面两种算法：

1. 基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品

2. 基于物品的协同过滤算法(ItemCF): 给用户推荐和他之前喜欢的物品相似的物品

不管是UserCF还是ItemCF算法，非常重要的步骤之一就是计算用户和用户或者物品和物品之间的相似度。

二、相似性度量方法

1. 杰卡德(Jaccard)相似系数 这个是衡量两个集合的相似度一种指标。两个用户u 和 v交互商品交集的数量占这两个用户交互商品并集的数量的比例，称为两个集合的杰卡德相似系数，用符号 simuv表示，其中 n(u)、n（v）分别表示用户 u和用户 v交互商品的集合。由于杰卡德相似系数一般无法反映具体用户的评分喜好信息，所以常用来评估用户是否会对某商品进行打分，而不是预估用户会对某商品打多少分。

补充集合知识：设有限集合A={x|x=ai，i≤n，i∈N+，n∈N+}，S=a1+a2+…+an-1+an，则S叫做集合A的模，记作|A|；

2. 余弦相似度

余弦相似度衡量了两个向量的夹角，夹角越小越相似。首先从集合的角度描述余弦相似度，相比于Jaccard公式来说就是分母有差异，不是两个用户交互商品的并集的数量，而是两个用户分别交互的商品数量的乘积，公式如下：

从向量的角度进行描述，令矩阵a 为用户-商品交互矩阵(因为是TopN推荐并不需要用户对物品的评分，只需要知道用户对商品是否有交互就行)，即矩阵的每一行表示一个用户对所有商品的交互情况，有交互的商品值为1没有交互的商品值为0，矩阵的列表示所有商品。若用户和商品数量分别为、n的话，交互矩阵就是一个 m行 n列的矩阵。此时用户的相似度可以表示为(其中 u.v指的是向量点积)：

补充向量点积知识：两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为：a·b=a1b1+a2b2+……+anbn。