美文网首页数据分析大数据 爬虫Python AI Sql
播放超6亿,评分只有5.6?Python+BI分析揭秘《囧妈》到

播放超6亿,评分只有5.6?Python+BI分析揭秘《囧妈》到

作者: 数据分析不是个事儿 | 来源:发表于2020-02-28 10:54 被阅读0次

历年来,春节档电影都是各家导演争奇斗艳拼票房的阵地,每年我都带着家里人去电影院凑凑热闹,而今年的春节只能乖乖坐在家里看看电视和手机。全国疫情大面积爆发,导致很多前期预热火爆的电影纷纷撤档,陈思成的《唐人街探案》、陈可辛的《夺冠》都撤了,而唯独徐峥导演的电影《囧妈》独占春节档,以6.3亿元的版权费卖给了字节跳动,在线上免费播放。

在这个特殊时期,花6个亿请全国人民观众免费看电影,是人类电影影史上第一次因灾难事件免费馈赠观众观看电影行为,这无疑给出品方欢喜传媒赚足了好口碑,意料之内,《囧妈》上线后播放量惊人,突破6亿,这一波对出品方和字节跳动来说都是名利双收

播放量超6亿,囧妈真的好看吗?

如此高的播放量,看起来这部片子拍的不错,但我打开豆瓣一看,评分只有不到6分,翻开评论区也是差评居多,《囧妈》到底垃圾在哪?我决定用python爬取豆瓣的影评,并用BI分析出原因,整个过程共三步:

python获取数据

数据处理

数据可视化

数据爬取

豆瓣非登录状态下最多获取200条评论,登录状态下最多为500条,为了解决登录的问题,本次使用Selenium+BeautifulSoup获取数据

如下图所示,本此数据爬取主要获取的内容有

评论用户ID

评论用户主页

评论内容

评分星级

评论日期

用户所在城市

部分代码如下,需要完整代码可以点击我的头像私信回复“囧妈”即可获得代码及数据集

数据处理

拿到数据后,下一步就是数据处理和可视化分析,本来想用python进行的,但是写代码太麻烦了,我想到一个更快捷的方式,用FineBI工具进行数据处理与分析,步骤简单且不用写代码,可视化图表也更美观

1、数据链接

首先导入我们需要分析的数据,FineBI可以连接Excel,CSV,XML,以及各类数据库,这里因为有了python爬取到的excel表,所以直接选择excel导入即可。

2、数据处理

在数据准备的过程中,我们爬取到的数据可能需要第二次加工,比如脏数据处理、数据合并、过滤等等,FineBI是通过自助数据集的方式,根据需求对原数据进行再加工处理,我们新建一个用于分析的数据集,选择需要用到数据表及其字段,先用上下合并的方式把三张表合并到一起:

然后我们把推荐星级转换成1-5分,力荐为5分,推荐4分,有城市空缺、海外城市、乱写的删掉,再把评论时间转换成时间类型

数据可视化

数据处理完了,到了数据可视化这一步就简单的多,把要分析的指标拖拽到横、纵轴上,图表就自动生成了,FineBI可以根据你选择的指标和维度自动推荐合适的图表

先来看看观众推荐的总体评分分布:

囧妈》截止到目前在豆瓣中的总体评分为5.9分,仅好于19%的喜剧片。从评分分布来看,3分的占比最高,有41.84%,而5分的比例最低,只有6.59%。

接下来分析评论者所在的城市分布,来粗略的展示前八大热门的影迷城市。

果然还是北上广影迷多,尤其是北京,评论数超了上海2倍多。

再看一下评论的时间走势:

评论的时间走势和电影热度一致,在大年初一免费上映时候达到最高值,后面热度很快就退了

其中最火的一条评论是:后半段垮的妈都不认识,有10000多人给这条评论投票,由此可见,这个片的槽点在后半段。

怎么评价这部片子呢,首先可以看到推荐评分在3分居多,也就是还行。我看完这部电影最大的感受就是不太纯粹,如果是一部喜剧的话,电影中却穿插了大量的家庭亲情,感情纠纷的内容,如果是一步家庭教育,家庭亲情的话又不那么深刻。不是说喜剧穿插一些教育性的内容不好,只是可能是没有把握好这个度,也就导致这部电影笑点没那么多没那么好笑,比起其他真正的教育性电影又不足。我怀念的还是一开始的人在囧途,虽然也有教育性但是确实能让人捧腹大笑,这个度就把握的很好。

FineBI工具个人永久免费版下载地址和python爬虫代码,点我头像私信回复“囧妈”获得!

相关文章

网友评论

    本文标题:播放超6亿,评分只有5.6?Python+BI分析揭秘《囧妈》到

    本文链接:https://www.haomeiwen.com/subject/dgykhhtx.html