美文网首页互联网科技Python小哥哥python
爬取《哪吒》豆瓣短评,我获得了什么?

爬取《哪吒》豆瓣短评,我获得了什么?

作者: 痴痴痴痴痴痴痴 | 来源:发表于2019-08-17 12:19 被阅读22次

    《哪吒》最近挺火的。于是,我就想看看关于《哪吒》的好评。

    打开豆瓣,找到短评,试着开始用python爬取数据。可是,折腾一波之后,发现了这个。

    豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。

    登录状态下,按网页按钮点击“后页”,参数“start”最多为480,也就是20*25=500条;非登录状态下,最多为200条。

    行吧,500条就500条吧,Let's go。

    整个过程:

  1. 获取豆瓣短评数据
  2. 词云可视化
  3. 结果展示:

    总结来了

    我把文章中的一些重要的内容,总结在了下面的一张图里,方便大家保存、查阅。

    关注公众号【小痴印记】,获取源码。

    -END-

    相关文章

      网友评论

        本文标题:爬取《哪吒》豆瓣短评,我获得了什么?

        本文链接:https://www.haomeiwen.com/subject/vkihsctx.html