用Python爬取好奇心日报的评论和分享数

用Python爬取好奇心日报的评论和分享数

作者: 50862d60a94f | 来源:发表于2018-07-25 16:13 被阅读84次

本文最后更新于2018-7-25，可能会因为没有更新而失效。如已失效或需要修正，请联系我！

声明

代码、教程均为张思淡本人原创，且仅限于学习交流，请勿用于任何商业用途！

因为我是最近才关注好奇心日报的，感觉好奇心日报从14年创办以来许多的
好文章我都没看，所以打算找出这些好文章。
一般来说一篇好文的分享数或者评论数都比较多，所以我只要爬下
好奇心日报的每篇文章的评论和分享数就行了。

准备工作

第一步是发现好奇心日报的文章地址编码是按数字递增的，例如：
http://www.qdaily.com/articles/38425.html
很快就可以发现标题，分享数，文章发布日期都在页面里，
但是评论数不在页面中
然后我使用谷歌浏览器的F12的network功能，发现了评论
是通过json数据获得的，地址类似：
http://www.qdaily.com/comments/article/38425/0.json
然后爬虫写起来就比较容易了
看到那么多评论，于是我顺便把评论的内容也爬下来了

结果展示

先是根据文章分享数排序：

share.png

然后评论的词云显示的结果：

wordcloud.png

然后是文章id与分享数关系图：

id-share.png

可以看出越到后面，平均每篇文章的分享数就越多，可以反映出好奇心日报的用户数变多

代码

爬虫代码在 qdaily-spider
生成词云代码在 qdaily-comment
生成文章id与分享数关系图的代码在 qdaily-share
爬虫代码：

code1.png

code2.png

code3.png

code4.png

code5.png

相关文章

网友评论

我的个人博客

本文标题：用Python爬取好奇心日报的评论和分享数

本文链接：https://www.haomeiwen.com/subject/rhapmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

我的个人博客

热点阅读

我的个人博客

关于我们|服务条款|联系我们|用Python爬取好奇心日报的评论和分享数|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！