美文网首页
数据分析豆瓣电影

数据分析豆瓣电影

作者: 取名字真的很烦啊 | 来源:发表于2018-09-11 13:34 被阅读0次

      闲暇之余,用了一个星期爬取了自己能get到的全部豆瓣电影电视评分数据。手里拿着几万条数据,也从里面发现了不少有趣的点。

      首先是看了下豆瓣里,最早的一部电影是1887年由导演普林斯所拍摄的《绕过墙角者》,全片片场仅有2秒钟。据说该片可能是目前已知的最早的电影。豆瓣评分6.7,在我爬取数据的时候共有73个人对这部“电影”打了分,另有29条短评。

      想来,这部“电影”的意义也是非凡的,自它起,电影业逐渐发展起来,日趋繁荣,直到今天,每年都有成百上千部作品问世。


    图1.豆瓣年度电影数量图

      从每年全球电影数量的增长趋势来看,从90年代末一来,全球电影发展不可谓不迅猛。也许是经济世界各地经济发展带来的影响吧。

      不过电影数量虽多,却不知质量如何。于是我画了豆瓣电影评分分布的饼图: 图2.豆瓣电影评分分布饼图   以及每年电影的评分平均散点图: 图3.豆瓣年度电影评分图

      总体来看,豆瓣上电影评分以6-8分最多,低于5分的电影以及高于8分的电影相对比例都比较少。只是没想到,最近几年电影数量虽多,平均评分却有走低的趋势。emmmmmmm...不知是观众变了还是电影本身变了呢?

      说到评分,不得不提到以前曾听人吐槽,豆瓣评分一向是大陆外面来的电影比较宽容,而大陆自己产的电影则评分普遍不高。如今手里头有了数据,自然想从数据来看看豆瓣的电影评分是否有“国籍/地区歧视“。

     需要注意的是:

    1. 许多电影是由不同国家或者地区合作的,这里仅仅是画出了由一个国家/地区产出的电影的评分。
    2. 由于豆瓣上面国家/地区标签下分类太多,这里便只挑选了电影数量最多的六个国家/地区的数据来展示。

      下图横轴是评分,纵轴是电影数量。图形颜色越往红色上偏,就代表对应评分区间的电影数量越多。


    图4.国家地区电影评分数量图

      大陆这边的图形形状,确实是有点与众不同的。不得不说,我们确实是生产了不少烂片,以至于我们的图形左边颇有些”傲立群雄“的姿态。

      但是也能发现,其实大陆高分电影也还是有很多的,评分位于6-8分的作品数量构成了柱状图的顶部,这倒与美国、日本、英国、法国是相似的。反而是香港,图形的顶部往左边稍稍偏移了些。

      这是不是说明,其实大陆还是有很多好电影的,只是相对的,烂作更多,也至于我们常年被烂作包围,让我们忽略了好的作品。

      既然大陆这边好电影也有不少,而最近几年总会听到是政策的原因才导致电影的产出越来越烂,那我就想看看了,是否数据也能佐证”行业“所说呢?


    图5.内地电影年度平均评分图

      从图里看出来,自从20世纪处开始,大陆电影的评分是有走低的趋向,不过,11年之后,评分又有回头的趋势了,这几年应该是好的电影应该在逐步起来了。所以说,烂片是有的,好片也是有的,但看从业人员如何选择罢了。

      当然,我们这么多烂片,其中最为知名的,当属那部《逐梦XXX》了。不过我就很好奇了,难道它真的就是拉片的底线了么?于是我查看了豆瓣上评分最低(有评分的情况下)的几几部电影,结果是,它确实和它的一众“兄弟电影们”,坚决的捍卫者烂片的底线。

      然而,毕导还是厉害的,毕竟,他的片子虽然烂,但是走进了大众的视野呀!来看,这14部电影的打分人数气泡图吧。


    图6.电影打分人数饼图

      用我所爬取到的数据,豆瓣所有有评分的电影,平均打分人数也才7325人。然而,这部片子毕竟是具有历史地位的,评分人数超过70000,也是“烂出圈”了吧。

      最后,就我所能拿到的这14部评分“高达”2.1的电影,其中有12部产自内地,某种意义上来说,也算是了不起吧。


      这个项目我还会继续做下去,爬虫以及数据可视化代码在doubanMovie.由于是练手项目且是第一次做数据分析类文章,不足之处甚多,请各位海涵。

    相关文章

      网友评论

          本文标题:数据分析豆瓣电影

          本文链接:https://www.haomeiwen.com/subject/pqfugftx.html