美文网首页
推荐系统实战 一 -- movieslens数据集简介

推荐系统实战 一 -- movieslens数据集简介

作者: 以后叫我老牛 | 来源:发表于2019-10-23 10:37 被阅读0次

1、数据集简介

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。

下载地址为:http://files.grouplens.org/datasets/movielens/,有好几种版本,对应不同数据量,本文所用的数据为1M的数据。

2、数据介绍

1m的数据解压后,可以看到四个主要的csv文件,分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv 和 movies.csv

ratings数据

文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下:

userId, movieId, rating, timestamp

userId: 每个用户的id

movieId: 每部电影的id

rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)

timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数

数据排序的顺序按照userId,movieId排列的。

我们用pandans观察数据的描述及前五行:

ratings=pd.read_csv('../data/ml-1m/ratings.csv',index_col=None)ratings.describe()ratings.head(5)

输出为:

movies数据

文件里包含了一部电影的id和标题,以及该电影的类别。数据格式如下:

movieId, title, genres

movieId:每部电影的id

title:电影的标题

genres:电影的类别(详细分类见readme.txt)

我们用pandans观察数据的前五行:

输出为:

合并数据集

我们可以根据movieId来合并两个数据集

汇总每部电影的评分数量

合并数据集之后,我们可以看一下每部电影的评分数量,并按照降序进行排序:

输出为:

得到打分的平均值及方差

输出为:

相关文章

网友评论

      本文标题:推荐系统实战 一 -- movieslens数据集简介

      本文链接:https://www.haomeiwen.com/subject/xkuhvctx.html