花木兰到底好看不，我用Python爬取了几万条评论！

花木兰到底好看不，我用Python爬取了几万条评论！

作者: 菜鸟学python | 来源:发表于2020-09-22 16:19 被阅读0次

对于神仙姐姐刘亦菲，估计很多码农都很喜欢，小编也非常喜欢她。从一开始的金粉世家里面的青涩的白秀珠，到天龙八部的神仙姐姐王语嫣，再到仙剑奇侠传里面的赵灵儿，后来挑战四大名捕里面的无情，演技也是越来越好。

现在她主演的《花木兰》 也带着一股巨浪向人们袭来，这部从拍摄之初就饱受争议的电影，于是小编在猫眼上爬取上万条的用户评价，对其进行数据分析，今天就跟大家一起对其进行探索。
$\normalsize\mathbf{01.}$ $\normalsize\mathbf{网站的分析}$ 这次我们的数据爬取从猫眼电影上获取，目前有近14万的电影短片数据。经过仔细的分析，}$发现猫眼电影的URL有一定的规律，可以从中获取猫眼的电影评论数据，并且数据提供的格式json格式，方便操作。这个接口如下：
http://m.maoyan.com/mmdb/comments/movie/movieid.json?v=yes&offset=15&startTime=？

这个接口主要有两个参数：

movieid是指猫眼中每个电影独有的id，如《花木兰》的movieid=1210778；
startTime是指该页面中第一条评论的时间，在这个页面，每页共有15条评论；

然后打开每一条评论，进行解析网页，看一下里面的结构发现关键的地方就是这个时间戳！
$\normalsize\mathbf{02.}$ $\normalsize\mathbf{动手写代码}$ 有了这个接口，就可以很快的对影评进行爬取了。这里依赖于requests、json等库进行(相关的爬虫知识，去年我已经写过50多篇，这里就不赘叙，翻翻历史文章即可），获取相关信息，相关核心代码如下所示：
上面的代码主要是构造代理user_agents, headers里面的参数，把网页的爬取请求伪装成浏览器的请求。
用requests发送网络请求，然后获取comments的数据，然后进行存储到csv文件中去。CSV的读写存储技巧可以看这篇(近20年五粮液股价分析|CSV文件实战处理)
经过上面一顿猛如虎的操作，下面小编先带大家看看爬的原始数据，主要包含了发表者的城市，评论内容，性别，用户，等级以及好评度等信息。

$\normalsize\mathbf{03 }$ $\normalsize\mathbf{数据分析}$ 有了原始数据，剩下的就是对数据的清洗分析了，这里选用pyecharts库进行数据分析，因为这个使用起来非常方便，而且效果也不错。

1).整体分析

豆瓣上给这部电影的打分只有4.9，不知道为啥大家的评分这么低。我们先查看一下大家对花木兰电影的总体评分吧。

用pyecharts的Bar来直观的看一下效果：

02).好评和差评
接着我们看一下花木兰的好评和差评的对比情况：

对df的数据进行处理，提取出好评和差评的关键字进行统计分析，然后进行可视化的展示。

由图表可以看出，大家对花木兰的评价分布还是比较均衡的，也有一点两极分化的趋势，给予高分和低分的的人都比较多。小编也电影院看了一下，认为两级分化是有原因的：

其迪斯尼的制作特效，以及刘亦菲的超高人气，为其吸引了大量人气，带来了一波好评；
但对于熟知中国古典故事花木兰剧情的人来说，其剧情的设计是让人很难接受的，也就导致了国人的诸多差评。

2)词云分析

基于评价两级分化的现象，小编决定探究一下两级分化的原因究竟是什么，这里小编对整体评价、好评、坏评的词云分别进行绘制，绘制得到的结果如下图所示。

我们用jieba库对整个的评论进行关键字分析，看一下大家的花木兰的点评到底是啥，我们统计出点评最多的100个关键字。

由整体评价词云可以看出，整体的评价还是偏向好的一方面，大大的“好看” 两字写在了词云中央；在差评词云中， “剧情”、“中国” 等词汇出现频率很高，表明差评的人主观感受是对剧情的不满意，其不符合中国历史故事，这一点是国人对这部电影的认可度不高的关键因素。

3)地域分析

最后小编带大家看看影评者的分布情况，大家可以找一找自己所在的城市是否也为这部票房做贡献了。

我们把上面采集到的数据集里面的每个评论的城市纬度拿出来，取前50个城市的名字，然后利用Pyecharts里面的geo库进行可视化展示。

由分布图可以看出，一线发达城市观影人数是最多的，北上广深显得尤为突出，可见一线城市人民的消费力卓越；从东西分布和南北分布来看，非常符合我国东强西弱，南强北弱的经济结构。

以上就是小编为大家带来的《花木兰》的电影分析，通过分析，我们发现其制作效果虽然可观，但是剧情方面难以让国人普遍接受。欢迎大家在留言区点评，给个三连！说说你对花木兰的看法是啥？

欢迎大家来公众号【菜鸟学Python】找我们，目前菜鸟学Python汇聚了30万Python爱好者，累计原创近400篇趣味干货(爬虫，数据分析，算法，面试指南，原创趣味实战，Python游戏，机器学习），欢迎一起学Python，交流指正。

相关文章

网友评论

Python

本文标题：花木兰到底好看不，我用Python爬取了几万条评论！

本文链接：https://www.haomeiwen.com/subject/kvziyktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Python

关于我们|服务条款|联系我们|花木兰到底好看不，我用Python爬取了几万条评论！|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！