Python实现推荐系统

作者: Guolz | 来源:发表于2016-08-17 11:10 被阅读3136次

Python实现推荐系统
python 简易推荐系统实现
电影推荐系统python实现
推荐系统
实现推荐系统的 python 库 Python-recsys
一文简单理解推荐系统
DataX系列2- 安装DataX
电影推荐系统python实现-纯代码
python实现基于物品的协同过滤（ItemCF）电影推荐算法
s9python并发编程

两种最普遍的推荐系统的类型是基于内容和协同过滤（CF）。协同过滤基于用户对产品的态度产生推荐，基于内容的推荐系统基于物品属性的相似性进行推荐。CF可以分为基于内存的协同过滤和基于模型的协同过滤。

我们将使用MovieLens数据集，它是在实现和测试推荐引擎时所使用的最常见的数据集之一，包含来自943个用户以及精选的1682部电影的评分。数据下载地址

导入numpy和pandas库


import numpy as np

import pandas as pd

读入u.data数据文件


header = ['user_id', 'item_id', 'rating', 'timestamp']

df = pd.read_csv('u.data', sep = '\t', names = header)

查看用户和电影的数量


n_users = df.user_id.unique().shape[0]

n_items = df.item_id.unique().shape[0]

print 'Number of users = ' + str(n_users) + ' | Number of movies = ' + str(n_items)


Number of users = 943 | Number of movies = 1682

使用scikit-learn库将数据集分割成测试集和训练集，调用Cross_validation.train_test_split根据测试样本的比例(test_size)将数据混洗并分割成两个数据集。


from sklearn import cross_validation as cv

train_data,test_data = cv.train_test_split(df, test_size = 0.25)

基于内存的协同过滤

基于内存的协同过滤方法可以分为两个部分：用户－产品协同过滤和产品－产品协同过滤。用户－产品协同过滤将选取一个特定的用户，基于打分的相似性发现类似于该用户的用户，并推荐那些相似用户喜欢的产品。产品－产品协同过滤会选取一个产品，发现喜欢该产品的用户，并找到这些相似用户还喜欢的其它产品。

用户－产品协同过滤：“喜欢这东西的人也喜欢……”

产品－产品协同过滤：“像你一样的人也喜欢……”

在这两种情况下，从整个数据集构建一个用户产品矩阵。

用户产品矩阵的例子：

计算相似性，并创建一个相似性矩阵。

在产品－产品协同过滤中的产品之间的相似性是通过观察所有对两个产品打分的用户来度量的。

在用户－产品协同过滤中的用户之间的相似性是通过观察所有同时被两个用户打分的产品来度量的。

通常用于推荐系统中的距离矩阵是余弦相似性，其中，打分被看成n维空间中的向量，而相似性是基于这些向量之间的角度进行计算的。用户a和m的余弦相似性可以用下面的公式进行计算：

$s_u^{cos}(u_k,u_a)=\frac{u_k \cdot u_a }{ \left \| u_k \right \| \left \| u_a \right \| } =\frac{\sum x_{k,m}x_{a,m}}{\sqrt{\sum x_{k,m}^2\sum x_{a,m}^2}}$ image

要计算产品m和b之间的相似性，使用公式：

$s_u^{cos}(i_m,i_b)=\frac{i_m \cdot i_b }{ \left \| i_m \right \| \left \| i_b \right \| } =\frac{\sum x_{a,m}x_{a,b}}{\sqrt{\sum x_{a,m}^2\sum x_{a,b}^2}}$ image

创建用户产品矩阵，针对测试数据和训练数据，创建两个矩阵：


train_data_matrix = np.zeros((n_users,n_items))

for line in train_data.itertuples():

train_data_matrix[line[1]-1, line[2]-1] = line[3]

test_data_matrix = np.zeros((n_users, n_items))

for line in test_data.itertuples():

test_data_matrix[line[1]-1, line[2]-1] = line[3]

使用sklearn的pairwise_distances函数来计算余弦相似性。


from sklearn.metrics.pairwise import pairwise_distances

user_similarity = pairwise_distances(train_data_matrix, metric = "cosine")

item_similarity = pairwise_distances(train_data_matrix.T, metric = "cosine")

已经创建了相似性矩阵：user_similarity和item_similarity，因此，可以通过基于用户的CF应用下面的公式做出预测：

可以将用户k和用户a之间的相似性看成权重，乘以相似用户a(校正的平均评分用户)的评分，这里需要规范化该值，使得打分位于1到5之间，最后对尝试预测的用户的平均评分求和。

基于产品的CF应用下面的公司进行预测，此时无需纠正用户的平均打分


def predict(rating, similarity, type = 'user'):

if type == 'user':

mean_user_rating = rating.mean(axis = 1)

rating_diff = (rating - mean_user_rating[:,np.newaxis])

pred = mean_user_rating[:,np.newaxis] + similarity.dot(rating_diff) / np.array([np.abs(similarity).sum(axis=1)]).T

elif type == 'item':

pred = rating.dot(similarity) / np.array([np.abs(similarity).sum(axis=1)])

return pred


item_prediction = predict(train_data_matrix, item_similarity, type = 'item')

user_prediction = predict(train_data_matrix, user_similarity, type = 'user')

评估

这里采用均方根误差(RMSE)来度量预测评分的准确性

可以使用sklearn的mean_square_error(MSE)函数，其中RMSE仅仅是MSE的平方根。


from sklearn.metrics import mean_squared_error

from math import sqrt

def rmse(prediction, ground_truth):

prediction = prediction[ground_truth.nonzero()].flatten()

ground_truth = ground_truth[ground_truth.nonzero()].flatten()

return sqrt(mean_squared_error(prediction, ground_truth))


print 'User based CF RMSE: ' + str(rmse(user_prediction, test_data_matrix))

print 'Item based CF RMSe: ' + str(rmse(item_prediction, test_data_matrix))


User based CF RMSE: 3.12466203536

Item based CF RMSe: 3.45056350625

可以看出，基于内存的算法很容易实现并产生合理的预测质量。

基于模型的协同过滤

基于模型的协同过滤是基于矩阵分解(MF)的，矩阵分解广泛应用于推荐系统中，它比基于内存的CF有更好的扩展性和稀疏性。MF的目标是从已知的评分中学习用户的潜在喜好和产品的潜在属性，随后通过用户和产品的潜在特征的点积来预测未知的评分。

计算MovieLens数据集的稀疏度：


sparsity = round(1.0 - len(df) / float(n_users*n_items),3)

print 'The sparsity level of MovieLen100K is ' + str(sparsity * 100) + '%'


The sparsity level of MovieLen100K is 93.7%

SVD

一般的方程可以表示为：

$X=USV^T$ image

给定m * n矩阵X:

U 是一个(m * r)正交矩阵

S 是一个对角线上为非负实数的(r * r)对角矩阵

V^T是一个(r * n)正交矩阵

S的对角线上的元素被称为X的奇异值。

阵X可以被分解成U，S和V。U矩阵表示对应于隐藏特性空间中的用户的特性矩阵，而V矩阵表示对应于隐藏特性空间中的产品的特性矩阵。

现在，可以通过U, S和V^T的点积进行预测了：


import scipy.sparse as sp

from scipy.sparse.linalg import svds

u, s, vt = svds(train_data_matrix, k = 20)

s_diag_matrix = np.diag(s)

x_pred = np.dot(np.dot(u,s_diag_matrix),vt)

print 'User-based CF MSE: ' + str(rmse(x_pred, test_data_matrix))


User-based CF MSE: 2.72035726617

总结：

实现了简单的协同过滤方法，包括基于内存的CF和基于模型的CF

基于内存的模型是基于产品或用户之间的相似性，这里采用余弦相似性。

基于模型的CD是基于矩阵分解，采用SVD来分解矩阵

标准的协同过滤方法在面对冷启动的情况时表现不佳。

参考资料

Implementing your own recommender systems in Python

Python实现推荐系统
两种最普遍的推荐系统的类型是基于内容和协同过滤（CF）。协同过滤基于用户对产品的态度产生推荐，基于内容的推荐系统基...
python 简易推荐系统实现
本文是参考了阿里云的推荐系统搭建文章的一个学习笔记，因为原文章的数据集找不到了，所以用的是不同的数据集（可能是有所...
电影推荐系统python实现
寒假在家保持写代码不手生，实现了这个小推荐系统。简介：推荐系统的一种简单实现就是，给定一个用户A，找到所有用户中...
推荐系统
用Mapreduce实现推荐系统提纲什么是推荐系统如何设计一个推荐系统 mapreduce实现推荐系统什么...
实现推荐系统的 python 库 Python-recsys
原文来自开源中国：侵删前言 python-recsys是一个用来实现推荐系统的python库。安装依赖项 p...
一文简单理解推荐系统
本文主要介绍什么是推荐系统，为什么需要推荐系统，如何实现推荐系统的方案，包括实现推荐系统的一些常见模型，希望给读者...
DataX系列2- 安装DataX
一.系统要求 Linux JDK(1.8以上，推荐1.8) Python(推荐Python 2.6.x) Apac...
电影推荐系统python实现-纯代码
python实现基于物品的协同过滤（ItemCF）电影推荐算法
最近，因为导师项目需要，花了几天时间学习了项亮的《推荐系统实践》，并用python实现了书上的Item Colla...
s9python并发编程
python之路——操作系统的发展史python之路——博客目录书籍推荐：现代操作系统进程进程 join()...

网友评论

4cf6511b4a50:https://github.com/ictar/python-doc/blob/master/Science%20and%20Data%20Analysis/%E5%9C%A8Python%E4%B8%AD%E5%AE%9E%E7%8E%B0%E4%BD%A0%E8%87%AA%E5%B7%B1%E7%9A%84%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F.md
4cf6511b4a50:转载最好注明出处
7700416888d6:早上在检查了一下你的原始数据, 发现用户id是从1到943顺序排列, 电影id是从1到1682顺序排列的, 那这样就说得通了, 最好还是要预先说明这个前提
7700416888d6:"创建用户产品矩阵，针对测试数据和训练数据，创建两个矩阵" ,train_data_matrix[line[1]-1, line[2]-1] = line[3] 这里创建矩阵的时候, 为什么要用到item_id呢, 可是可以, 但是最好要添加一个条件, item_id必须要小于用户数n_users = df.user_id.unique().shape[0]
40787e724589:那个不叫基于内存，叫基于内容。

Python实现推荐系统

基于内存的协同过滤

评估

基于模型的协同过滤

SVD

总结：

参考资料

相关文章

Python实现推荐系统

python 简易推荐系统实现

电影推荐系统python实现

推荐系统

实现推荐系统的 python 库 Python-recsys

一文简单理解推荐系统

DataX系列2- 安装DataX

电影推荐系统python实现-纯代码

python实现基于物品的协同过滤（ItemCF）电影推荐算法

s9python并发编程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习

***

机器学习与数据挖掘

机器学习推荐系统