美文网首页
MovieLens-1M数据分析

MovieLens-1M数据分析

作者: 四牌楼吴彦祖 | 来源:发表于2017-12-17 22:53 被阅读0次

1  首先导入pandas包,然后读入数据,数据集从https://github.com/wesm/pydata-book上下载就行

import pandas as pd

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']

users = pd.read_table('/movielens/users.dat', sep='::', header=None, names=unames, engine='python')

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

ratings = pd.read_table('/movielens/ratings.dat', sep='::', header=None, names=rnames, engine='python')

mnames = ['user_id', 'title', 'genres']

movies = pd.read_table('/movielens/movies.dat', sep='::', header=None, names=mnames, engine='python')

可以利用users[:5]等切片看看自己加载的数据集是否成功

2   用pandas的merge函数将ratings跟users合并到一起,然后将movies也合并进去

data = pd.merge(pd.merge(ratings, users), movies)

data.loc[0]   #查看第一个元素

计算电影平均分

mean_ratings=data.pivot_table('rating',index='title',columns='gender',aggfunc='mean')

ratings_by_title=data.groupby('title').size() #对title进行分组

active_titles=ratings_by_title.index[ratings_by_title>=250] # 获得评论数据大于250的电影

mean_ratings=mean_ratings.loc[active_titles]mean_ratings

mean_ratings=mean_ratings.rename(index={'Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954)':'Seven Samurai (Shichinin no samurai) (1954)'})

top_female_ratings=mean_ratings.sort_index(by='F',ascending=False)# 获取女性观众最喜欢的电影

mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F'] #计算评分分歧

sorted_by_diff = mean_ratings.sort_values(by='diff')

rating_std_by_title = data.groupby('title')['rating'].std()  #根据电影名称分组得到标准差

rating_std_by_title = rating_std_by_title.loc[active_titles]  # 根据active_title进行过滤

相关文章

  • MovieLens-1M数据分析

    1 首先导入pandas包,然后读入数据,数据集从https://github.com/wesm/pydata-b...

  • Ripplenet, MTR, DPN, KGNN-LS

    dataset: movieLens-1M, music Last.FM, Book-Crossing, IQON...

  • 一图知晓数据分析与数据挖掘的区别是什么?

    数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就...

  • 数据挖掘和分析的区别

    数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就...

  • 一图知晓数据分析与数据挖掘的区别是什么?

    数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就...

  • 数据分析与数据挖掘的区别是什么?

    数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就...

  • 小菜鸟偷学数据分析(一)

    1.1数据分析是神马? 1.1.1何谓数据分析 数据分析就是对数据进行分析,较为专业的说法,数据分析是指用适当...

  • 数据分析方法

    一、数据分析分类:描述性数据分析、探索性数据分析、验证性数据分析。 1、描述性数据分析:1)对比分析;2)平均分析...

  • 谁说菜鸟不会数据分析(入门篇)

    1、数据分析那些事儿 数据分析是神马 数据分析: 数据分析是指用适当的统计分析方法对搜集来的大量数据进行分析,将他...

  • 数据分析概论

    数据分析框架 整个分析框架发为四大层次 数据规划 数据采集 数据分析 数据决策 在数据分析框架中,用户是数据的来源...

网友评论

      本文标题:MovieLens-1M数据分析

      本文链接:https://www.haomeiwen.com/subject/pzwuwxtx.html