美文网首页程序员@IT·互联网
用爬虫获取简书总用户数和总文章数随时间的变化曲线

用爬虫获取简书总用户数和总文章数随时间的变化曲线

作者: ztinpn | 来源:发表于2017-05-16 10:42 被阅读108次

思路

关键在于如何得到一系列的文章、用户全局编号以及文章发表和用户注册的时间戳,作为时间-数量曲线上的二维点。希望这些点能够随时间较为均匀地分布,这样,几百个采样点足矣。

然而用来访问简书文章和用户页面里是编号的hash值,因此不可能简单通过编号递增的方法产生访问地址来获得时间戳。

但稍加分析可发现,用户的文章列表中有个note-id字段,似乎就是文章本身的全局编号。那么,找一个简书创立之初就开始连续发表文章的用户,例如@简书,那么,遍历文章列表获得note-id和对应发表时间就可搞定文章总数的时间曲线。

对于用户数量,发现搜索用户的功能里ajax请求可返回包含用户全局id的json信息,而用户主页的动态中,第一条为用户加入简书的时间。那么,可搜索常用用户名的单字,例如“小”,“的”之类,可保证较为均匀地获得简书创立之初直到现在的用户信息。

获取方法

根据前述思路,写js脚本,在chrome浏览器中,简书页面之下运行即可,好处是不用写登录逻辑,且满足同源策略方便ajax。细节比较简单,不赘述。

结果

把结果按照时间排序,绘制得到:

简书用户数、文章数的时间曲线

可见目前文章数超过1200万,用户数超过600万。总体而言,曲线平稳上升。对比之下,文章数上升更快,说明大家的创作热情越来越强了。
另外,看到2015年7月附近有些跳变,推测是做了推广吧。

思考题:如何获得简书的日活?

相关文章

  • 用爬虫获取简书总用户数和总文章数随时间的变化曲线

    思路 关键在于如何得到一系列的文章、用户全局编号以及文章发表和用户注册的时间戳,作为时间-数量曲线上的二维点。希望...

  • Swfit爬虫通过作者ID无接口获取简书文章列表,正则匹配HTM

    上篇文章写过Python爬虫的方法,用的Scrapy框架。Python--Scrapy爬虫获取简书作者ID的全部文...

  • 爬取简书和数据分析

    最近使用爬虫爬了一下简书,半天的时间爬取了简书20w用户数据和40w的follow关系。这些存在mysql里面的闲...

  • 2018-09-08 近况、打算和一些对爬虫工程师的理解

    近况 前阵子把之前在博客上写的所有关于爬虫的文章都搬到了简书,这导致我在简书的文章总字数直接突破了10W,接着一个...

  • 不跟热点的文章难道就会关注量少吗?

    来简书时间长了,各种想法都会蹦出来了,总让我感觉不跟随热点的文章点赞数和观看人数趋势比较少。难道其他文章多数人不...

  • datatables 获取总记录数

    今天在使用DataTable的时候,突然想到,以前总是用结果集获取数据库中的数据量,如何用DataTables本身...

  • 简书排行榜

    打开简书首页我的→排行榜→点开就是简书每日发放总榜。 点开发放总榜看到两个榜单:文章排名和用户排名。文章排名每天凌...

  • 数据

    当下国内互联网上比较健康的产品(较大体量)平均数据。1. 日活跃用户数/总用户数= 5% 2. 周活跃用户数/总用...

  • 目标

    当前目标(第二期) 简书粉丝达到100 总点赞达到2000 文章最高赞数达到15 总字数达到25万 总资产达到75...

  • 绘制你的简书曲线

    上次看到 彭小六大神 弄了个他自己的简书文章-关注数曲线,图如下 觉得挺有意思,于是自己弄了个爬虫简陋版,效果图如...

网友评论

    本文标题:用爬虫获取简书总用户数和总文章数随时间的变化曲线

    本文链接:https://www.haomeiwen.com/subject/jvzkxxtx.html