美文网首页个人专题数据乐园随手记
爬取两百万简书用户动态,发现了很多夜猫子~

爬取两百万简书用户动态,发现了很多夜猫子~

作者: dalalaa | 来源:发表于2017-08-12 13:17 被阅读2641次

    先上百度百科定义:夜猫子:通常指熬夜超过凌晨2点的人
    熬夜:真正意义上说,0点入睡属于熬夜,从内分泌的角度上说,11点后入睡属于熬夜。
    在上一篇文章中分享了一下我爬取的简书用户的id数据,共有235W人,根据这235W的用户ID,获取了183W用户的基本信息(因为网速不行,很多链接超时了),用作数据分析之用。
    写这篇文章的初衷是我发现我在简书写文章之后越睡越晚,每次发文都是11点以后,第二天只能收获寥寥几个赞,引发了我的思考,也就是我的作息时间是否跟读者作息时间错开了,能不能通过调整发文时间来获得更多关注?
    先看看其他作者的作息时间吧~
    从这183w用户中提取出写过文章的用户,共有30.3w人,占比16.56%,他们发布过的文章数量分布如下图所示:

    简书作者产量分布图

    1. 简书读者活动时间

    简书读者活动时间

    看到了吗?简书读者活动在23点出现下降趋势,说明读者比作者睡得早啊,作者们如果希望得到更多关注的话,请尽早发文,务必赶在读者活动最频繁的22点之前。

    简书用户的各项动态(包括关注专题、关注作者、喜欢文章)曲线几乎相同,这里不一一放出。

    2. 排除不活跃用户之后的时间表

    抓取用户动态时我发现,很多用户的动态还停留在2016年,我们暂且称呼已经长时间没有简书动态的用户为AFK用户,下图是所有用户的最近动态时间,很明显,这些用户中有一半多人要么已经离开简书,要么就是那种从不点赞、从不关注的人。

    简书用户最近登录时间
    其中有多少注册之后几乎没有动态?
    经统计、注册之后动态少于十条的用户共有123w人,占比67.20%~~数量相当庞大。
    那剔除掉这部分用户之后,读者们的活动时间又是什么样的呢?看下图
    活跃用户的活动时间
    与所有用户的活动时间表几乎一模一样,看来活不活跃跟作息时间没有多大关系。
    1. 简书作者发文时间


      简书作者活动时间

      提取了简书作者发表文章的时间点,从上图中可以看出,22-24点是简书作者发文高峰,24点发文作者减少。

    2. 资深作者与新手作者的发文时间安排


      粉丝数100以下的作者发文时间
      粉丝数100-300的作者发文时间
      粉丝300以上的作者发文时间

    从图中可以看到,粉丝数量较多的作者们的发文时间比较分散,三个高峰分别是11点、17点、22点(正好是中午下班时间、晚上下班时间和晚上睡觉时间),并且和读者活动时间一样,在晚上十点之后出现下滑。

    结论:

    1. 简书作者普遍比简书读者睡得晚一点;
    2. 简书用户虽多,但活跃用户比例较少;
    3. 简书用户活动巅峰在22:00-23:00,想要更多关注量、请提前投稿(记得算上专题审核时间);
    4. 资深作者熬夜比例较小,新手熬夜比例较高。

    有兴趣转行机器学习的朋友可以加群:


    机器学习-菜鸡互啄群

    相关文章

      网友评论

      • 4a8e035071a8:开门,送快递的
        dalalaa: @不要看我名字 我没买东西
      • ZZES_ZCDC:好棒😀
      • 一浅疏影:5到10,10到30啥意思?
        dalalaa:是作者发表的文章数量
      • d24b1c56c209:分析的不错:stuck_out_tongue_winking_eye::stuck_out_tongue_winking_eye:
        dalalaa:谢谢~
      • 小兄弟:好玩
      • 萤火之森ss:没错,你爬虫用什么写的。
        dalalaa: @萤火之森ss Python呀
      • 8c9f0f91a1bc:简书的开发和运维得找你麻烦了,再多几个人像你这样爬一爬,把他们的服务器拖垮了
        dalalaa: @阿布索普森 我也觉得简书对待爬虫特别宽容,我IP都没换过
      • 溪玥:想学怎么爬的
        dalalaa:给你个网址,入门教程,写得很详细的,http://cuiqingcai.com/
      • 翠娥Z:早睡早起身体好😜
        dalalaa:是的,掏心窝子的话
      • Oo晨晨oO:爬的是评论还是什么? 求告知从哪个接口爬的呐?我肿么感觉你把人家的数据库搞下来了:scream:
        dalalaa:都是公开数据,从网页上可以看到的,是从专题的关注人数列表开始爬的。先爬ID,再爬信息。
      • 414697ada450:正在爬的路上
      • 权当欢喜:具体我也不懂,反正觉得很牛气👍
      • losepos:每次看这种图我都头疼,总感觉列个表格或者用柱形图+数字表示更加舒服。
        dalalaa:数据表清晰明了,确实看得舒服,但是工作两年之后,我发现领导们就是喜欢看这种花哨的图表╮(╯_╰)╭
      • 傅青岩:注册简书后,我从十点前睡觉到十一点前睡觉,再到现在两点睡觉,早上起床,嘴巴苦的,但心里甜
        dalalaa:@傅青岩 我也经常写到11点以后,但是对身体不好,还是尽量早睡,文章可以早起来写。
      • 02d2aa0f4c8d:现在法律规定,爬取超过五百条用户数据就有可能被判三年,老哥,小心被查水表
        dalalaa: @秋末的小懒 可怕~~,我去看看
        02d2aa0f4c8d: @dalalaa 去查查六月一号颁发的中华人民共和国网络安全法,有明文规定了,爬取用户通讯录超过50条,最高三年
        dalalaa: @秋末的小懒 吓得我赶紧百度了一下,目前在国内关于爬虫的法规还不健全,目前比较认同的说法是不用于商业用途就不算违法,but~这篇文章有人给我打赏了,算不算商业用途啊
      • Rickey丶cc:怎么爬 我想爬微博的😂
        dalalaa:@薛泽_Pro1 我还特意去百度了一下Twoeye算法(╯‵□′)╯︵┴─┴
        密特镇的薛:用python,我刚才用Twoeye算法爬了一下楼主的历史文章:relaxed:
        dalalaa: @Rickey丶cc 微博我还没爬过,爬完来跟你交流
      • 网络的那点事:表示还有很多信息,男的多还是女的多,热门圈子类型,喜欢打赏的人的属性😂😂
        dalalaa: @网络的那点事 我记得有人写过用机器学习判断简书用户男女的~
      • 滑稽的命运:简书表示:你可以来简书上班了,哦对,你的职位是反爬:joy:
        dalalaa: @滑稽的命运 反爬的最终都干不过爬虫🐛
      • dandan的微笑:正在学爬啊爬😀
        dalalaa: @dandan的微笑 爬呀爬🕷🕷🕷
      • 齐原缘:很厉害很有意思的分享😆
        网络的那点事: @木林森缘 为啥又见到了😂
        kinmo:@dalalaa 这就有点尴尬了
        dalalaa: @木林森缘 您的起床时间已经击败了98%的用户。
      • 我有虎牙:用数据说话,很有说服力
        dalalaa: @我有虎牙 😏是的吧
      • 知识学者:🙄因为简书主要是年轻人,大学生,程序员等。😂
        dalalaa: @东风冷雪 你睡得也挺晚的啊

      本文标题:爬取两百万简书用户动态,发现了很多夜猫子~

      本文链接:https://www.haomeiwen.com/subject/fqykrxtx.html