美文网首页我的个人博客
用Python爬取好奇心日报的评论和分享数

用Python爬取好奇心日报的评论和分享数

作者: 50862d60a94f | 来源:发表于2018-07-25 16:13 被阅读84次

    本文最后更新于2018-7-25,可能会因为没有更新而失效。如已失效或需要修正,请联系我!

    声明

    • 代码、教程均为张思淡本人原创,且仅限于学习交流,请勿用于任何商业用途!

    因为我是最近才关注好奇心日报的,感觉好奇心日报从14年创办以来许多的
    好文章我都没看,所以打算找出这些好文章。
    一般来说一篇好文的分享数或者评论数都比较多,所以我只要爬下
    好奇心日报的每篇文章的评论和分享数就行了。

    准备工作

    第一步是发现好奇心日报的文章地址编码是按数字递增的,例如:
    http://www.qdaily.com/articles/38425.html
    很快就可以发现标题,分享数,文章发布日期都在页面里,
    但是评论数不在页面中
    然后我使用谷歌浏览器的F12的network功能,发现了评论
    是通过json数据获得的,地址类似:
    http://www.qdaily.com/comments/article/38425/0.json
    然后爬虫写起来就比较容易了
    看到那么多评论,于是我顺便把评论的内容也爬下来了

    结果展示

    先是根据文章分享数排序:

    share.png

    然后评论的词云显示的结果:

    wordcloud.png

    然后是文章id与分享数关系图:

    id-share.png

    可以看出越到后面,平均每篇文章的分享数就越多,可以反映出好奇心日报的用户数变多

    代码

    爬虫代码在 qdaily-spider
    生成词云代码在 qdaily-comment
    生成文章id与分享数关系图的代码在 qdaily-share
    爬虫代码:

    code1.png code2.png code3.png code4.png code5.png

    相关文章

      网友评论

        本文标题:用Python爬取好奇心日报的评论和分享数

        本文链接:https://www.haomeiwen.com/subject/rhapmftx.html