1 数据说明

数据集下载ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip

解压缩后用到两个文件 movies.csv 和 ratings.csv 。
movies.csv是各种电影的数据，列分别为电影编号、电影名、所属类型。

movieId	title	genres
1	Toy Story (1995)	Adventure,Animation,Children,Comedy,Fantasy
2	Jumanji (1995)	Adventure,Children,Fantasy

ratings.csv用户的评分数据，列分别为用户编号、电影编号、评分、时间戳。

userId	movieId	rating	timestamp
1	1	4.0	964982703
1	3	4.0	964981247

2 数据处理

我们的目的是给定一个用户id，找出他可能喜欢的电影名。
但是两个文件电影信息和用户评分信息是分开的，所以需要合并。

2.1读取原始数据

import pandas as pd
movies = pd.read_csv(r'C:\Users\yyy\Desktop\推荐系统\movies.csv') #注意含中文路径需要在前面加 r 转义
ratings = pd.read_csv(r'C:\Users\yyy\Desktop\推荐系统\ratings.csv')

2.2合并两个文件

data = pd.merge(movies,ratings,on = 'movieId')#通过两数据框之间的movieId连接
data[['userId','rating','movieId','title']].sort_values('userId').to_csv(r'C:\Users\yyy\Desktop\推荐系统\merged.csv',index=False)

2.3 用字典存放所得数据

file = open(r'C:\Users\yyy\Desktop\推荐系统\merged.csv','r')#记得读取文件时加‘r’， encoding='UTF-8'
##读取data.csv中每行中除了名字的数据
data = {}##存放每位用户评论的电影和评分
for line in file.readlines():
    #注意这里不是readline()
    line = line.strip().split(',')
    #如果字典中没有某位用户，则使用用户ID来创建这位用户
    if not line[0] in data.keys():
        data[line[0]] = {line[3]:line[1]}
    #否则直接添加以该用户ID为key字典中
    else:
        data[line[0]][line[3]] = line[1]

此时得到的data[:2]

movieId	title	genres	userId	rating	timestamp
1	Toy Story (1995)	Adventure,Animation,Children,Comedy,Fantasy	1	4.0	964982703
1	Toy Story (1995)	Adventure,Animation,Children,Comedy,Fantasy	5	4.0	847434962

3 推荐系统

3.1 计算两个用户的相似度

注意：最后把距离缩放到了[0, 1]之间，这是为了简化计算。因为有可能两个用户之间的差异很大，平方和累加起来是一个很大的数，他们两个差异这么大对这个推荐系统没用，所以用1/（1+distance）把它缩放到0.

from math import pow, sqrt
def Euclidean(user1,user2):
    #取出两位用户评论过的电影和评分
    user1_data=data[user1]
    user2_data=data[user2]
    distance = 0
    #找到两位用户都评论过的电影，并计算欧式距离
    for key in user1_data.keys():
        if key in user2_data.keys():
            #注意，distance越大表示两者越相似
            distance += pow(float(user1_data[key])-float(user2_data[key]),2)
 
    return 1/(1+sqrt(distance))#这里返回值越大，相似度越大

3.2 找到最相似的k个用户

def top10_similar(userID):
    res = []
    for userid in data.keys():
        if not userid == userID:
            sim = Euclidean(userID, userid)
            res.append((userid, sim))
    res.sort(key=lambda val:val[1], reverse=True)
    
    return res[:10]
    
RES = top10_similar('1')
print(RES)

3.3 找到最相似的用户看过的电影

def recommend(user, k=5):
    recomm = []
    most_sim_user = top10_similar(user)[0][0]
    items = data[most_sim_user]
    for item in items.keys():
        if item not in data[user].keys():
            recomm.append((item, items[item]))
    recomm.sort(key=lambda val:val[1], reverse=True)
    
    return recomm[:k]
        
RECOM = recommend('1')
print(RECOM)