数据爬取
此次数据爬取我们参考了之前其他文章中对于猫眼数据的爬取方法,调用其接口,每次取出部分数据并进行去重,最终得到上万条评论,代码如下:
进群:125240963 即可获取数十套PDF哦!
数据分析
我们看一下所得到的数据:
数据中我们可以得到用户的昵称,方便后面进行去重。后面的部分主要围绕评分、城市、评论展开。
首先看一下,评论分布热力图:
在评论数量最多的二十个城市中,评分前七名的城市中东北独占四席,而分数相对较低的城市中武汉、合肥、郑州都属于中部地区,可见不同地区的观众对影评的认可程度有着一定差异。
较高区域:
较低区域:
不知道大家的想法如何,至少在我看到了这样的词云,搞笑、笑点、值得、开心、不错,甚至是哈哈都会激起我强烈的看片欲望。同时,沈腾也被大家反复提起多次,可以预见其在片中有着非常不错的表演,也会一定程度上激发大家看片的欲望。
均是开心麻花出品、题材相似
演员阵容重合度高
豆瓣粉丝认可程度相似(评分均为6.9,处于喜剧片中位数水平)
猫眼粉丝认可程度相似(铁拳评分9.1,西红柿评分9.3)
我们看一下两部影片前三天的走势:
网友评论