推荐系统实战一 -- movieslens数据集简介

推荐系统实战一 -- movieslens数据集简介

作者: 以后叫我老牛 | 来源:发表于2019-10-23 10:37 被阅读0次

推荐系统实战一 -- movieslens数据集简介
UserCF原理及其实现
推荐系统实战第01课推荐系统简介
使用Tensorflow进行Mnist数据集实战
推荐系统实战二
Spark 处理MovieLens 100k数据集案例
项目实战-大数据-实时推荐系统最主流推荐系统itemCF和use
个性化推荐系统（二）---构建推荐引擎
项目实战-基于大数据技术推荐系统算法案例实战视频教程网盘下载
推荐系统 - 常用数据集

1、数据集简介

MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。

这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。

下载地址为：http://files.grouplens.org/datasets/movielens/，有好几种版本，对应不同数据量，本文所用的数据为1M的数据。

2、数据介绍

1m的数据解压后，可以看到四个主要的csv文件，分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv 和 movies.csv

ratings数据

文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下：

userId, movieId, rating, timestamp

userId: 每个用户的id

movieId: 每部电影的id

rating: 用户评分，是5星制，按半颗星的规模递增(0.5 stars - 5 stars)

timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数

数据排序的顺序按照userId，movieId排列的。

我们用pandans观察数据的描述及前五行：

ratings=pd.read_csv('../data/ml-1m/ratings.csv',index_col=None)ratings.describe()ratings.head(5)

输出为：

movies数据

文件里包含了一部电影的id和标题，以及该电影的类别。数据格式如下：

movieId, title, genres

movieId:每部电影的id

title:电影的标题

genres:电影的类别（详细分类见readme.txt）

我们用pandans观察数据的前五行：

输出为：

合并数据集

我们可以根据movieId来合并两个数据集

汇总每部电影的评分数量

合并数据集之后，我们可以看一下每部电影的评分数量，并按照降序进行排序：

输出为：

得到打分的平均值及方差

输出为：

相关文章

推荐系统实战一 -- movieslens数据集简介
1、数据集简介 MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。这...
UserCF原理及其实现
基于用户的协同过滤的原理及其实现.使用数据来自MoviesLens.之后行为结构,先介绍MoviesLens数据集...
推荐系统实战第01课推荐系统简介
@[toc](推荐系统实战第01课推荐系统简介) 推荐系统介绍（what why where） Industri...
使用Tensorflow进行Mnist数据集实战
MNIST数据集简介在进行MNIST数据集实战之前，我们先简单了解一下MNIST数据集。MNIST数据集的全称叫...
推荐系统实战二
之前我们介绍了moviesLens数据集，数据集中主要有两个文件： ratings数据文件里面的内容包含了每一个...
Spark 处理MovieLens 100k数据集案例
一、获取数据集我们使用的实验数据集是一个电影推荐方面的常用数据集MovieLens。它能应用于推荐系统和其它...
项目实战-大数据-实时推荐系统最主流推荐系统itemCF和use
项目实战-大数据-实时推荐系统最主流推荐系统itemCF和userCF视频教程网盘下载 38套大数据，云计算，架构...
个性化推荐系统（二）---构建推荐引擎
当下推荐系统包含的层级特别的多，整个线上推荐系统包含：最上层线上推荐服务、中层各个推荐数据召回集（数据主题、分类池...
项目实战-基于大数据技术推荐系统算法案例实战视频教程网盘下载
项目实战-基于大数据技术推荐系统算法案例实战视频教程网盘下载 38套大数据，云计算，架构，数据分析师，Hadoop...
推荐系统 - 常用数据集
1. Criteo 数据集 criteo数据集用于广告点击率预估任务（标签：0/1）；其中包含13个dense特征...

网友评论

本文标题：推荐系统实战一 -- movieslens数据集简介

本文链接：https://www.haomeiwen.com/subject/xkuhvctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|推荐系统实战一 -- movieslens数据集简介|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！