分析背景:
豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。极大地方便了人们的生活。
分析目的:
从豆瓣电影的用户评分数据、用户评论数据和电影数据中,找出最受欢迎的电影,以及评论关键词与电影评分之间的辩证关系,并进行可视化。
0、数据读取
从sqlite数据库中读取数据,整个数据集有404972条评论,7个字段。
分析使用2个字段:MOVIEID和CONTENT。
1、最受欢迎的10部电影
一部电影是否受欢迎和他的评论数有很大相关性,评论数越高,说明看过电影的人阅读,对电影有感触的人越多,表示电影越受欢迎。
从电影评论数来看,最受欢迎的10部电影是出租出司机、肖申克的救赎(这两部也是评论上千的电影)、七宗罪、禁闭岛、毕业生、杀死比尔2、布达佩斯大饭店、黑暗中的舞者、指环王1:魔戒再现、蝴蝶效应。
2、获取某部电影的所有评论
通过文本拼接来获取某部电影的所有评论文本。
定义获取评论文本函数3、获取某部电影评论的关键词并生成关键词词云图
通过jieba分词来获取电影评论文本的关键词。
从关键词中可以看出电影的总体评价。
获取电影评论关键词 关键词词云图 定义生成关键词词云函数4、评论关键词与评分之间的关系
探索高分电影的评论中哪些关键词出现次数更多,低分电影的评论中又是哪些关键词出现更频繁。
评分数据 需要使用的函数、构造存放列表 高分电影评论关键词3D热力图 低分电影评论关键词3D热力图
网友评论