用Python分析豆瓣电影TOP250

作者: 弃用中 | 来源:发表于2018-01-14 21:01 被阅读419次

    既然要分析豆瓣电影TOP250


    那么肯定就要把相关的数据采集下来,比如排名、电影名、导演、主演等信息。

    那就肯定使用一下爬虫咯,如果还不会的话,欢迎看之前的文章:

    Python爬虫学习(一)概述
    Python爬虫学习(二)urllib基础使用
    Python爬虫学习(三)urllib进阶使用
    Python爬虫学习(四)正则表达式
    Python爬虫学习(五)爬取电影排行榜及其图片
    Python爬虫学习(六)BeautifulSoup来袭
    Python爬虫学习(七)爬取淘女郎
    Python爬虫学习(八)爬取知乎关注用户

    Python爬虫学习(九)Requests库初探
    Python爬虫学习(十)Requests库探探
    Python爬虫学习(十一)使用Request爬取猫眼电影排行
    Python爬虫学习(十二)selenium来了
    Python爬虫学习(十三)使用selenium爬取淘宝商品

    Python爬虫学习(十四)美女写真套图(一)
    Python爬虫学习(十五)美女写真套图(二)

    当然,你也可以使用豆瓣提供的API接口:https://developers.douban.com/wiki/?title=movie_v2,提供的数据比较完整:

    试了下,这应该是好久之前的信息了,现在调用API返回的数据有些已经没了,而且有调用次数限制,还是自己写爬虫采集信息吧,就当练练手!

    若不想这么麻烦,也提供采集的数据:https://pan.baidu.com/s/1pMAUr6V

    下面就开始进行小小的分析啦,

    首先,导入要用到的包以及数据:

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    df = pd.read_csv('douban.csv')
    

    查看一下:

    df.head()
    
    df.tail()
    

    说好的TOP250呢?这就要吐槽一下豆瓣电影TOP250了,有些链接已经没用了,竟然没有更新,比如说排名20的熔炉。

    我们让其按豆瓣评分排序,并查看排名前五的电影:

    df.sort_values('豆瓣评分',ascending=False).head()
    

    而豆瓣评分超过9.5的,原来只有两部:

    df[df['豆瓣评分']>9.5]
    

    上榜次数最多的导演们:

    df['导演'].value_counts()
    

    更多分析,请参考:http://blog.csdn.net/yifei301/article/details/77529840?locationNum=3&fps=1

    机智如你,肯定做的比我更好!

    小弟先行一步,补片去了……

    以上。

    相关文章

      网友评论

      • JaeGwen:可以再做一点数据可视化方面的东西
      • 小丢Moma:以后学爬虫就可以照着你这上面的来了
        弃用中:@小丢丢M 敢问是同道中人吗,对IT感兴趣?
        小丢Moma:@Viljw 哈哈,,我每天都会打开简书看的,所以都会看到我
        弃用中:@小丢丢M 嗯嗯,每天都可以看到你😜

      本文标题:用Python分析豆瓣电影TOP250

      本文链接:https://www.haomeiwen.com/subject/jumhoxtx.html