美文网首页离签约作者的路谈写作首页投稿(暂停使用,暂停投稿)
简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

作者: 古柳_Deserts_X | 来源:发表于2017-09-06 20:57 被阅读2132次

一、前言

最近写得两篇关于简书的数据可视化文章:简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化反响都还不错,因而将继续针对简书进行数据分析和可视化。鉴于此前爬取手机app效率较低,本次重新回归网页数据的爬取。

爬取的对象是:今日看点专题下的“热门”文章数据。一篇文章被编辑收入“今日看点”,即意味着作品将立刻登上首页,得到很好曝光,为更多用户所阅读和喜欢。而本专题“热门”一栏里,收录着简书上至今为止最炙手可热、获赞数最多的文章,针对这部分数据进行研究和分析,可以得知哪类文章最受简书用户喜欢,哪些作者创作了“高质量”的作品等信息。

二、数据获取

上图可知,目前今日看点收录了148618篇文章, 共有30194人关注。原本想获取所有的文章,但发现爬取到1900+篇时,就再也无法得到更多数据,可能简书方面限制和保护了数据。

但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章应该都已经获取到了(后来发现其实并没有,仅是部分,脸疼),基于此后续研究可以继续展开。

三、数据可视化

1、年度月份分布情况

首先,我们来看看,截止目前,这些简书上最热门的文章都发布在何年何月?作为一名来到简书一个多月的小透明,一直不知道简书是何时“横空出世”的,@简叔、@简宝玉可否解答下。

由下图可知,最早的热门文章出现于2014年5月,是@CNFeat创作的《如何搭建一个独立博客——简明Github Pages与Hexo教程》一文。(间接知道了简书起码是在三年前就已经存在了)。之后逐年递增,猜测可能是新增用户基数越来越多,平台越来越为人所知,而且作品越来越好?所以热门文章出现的越来越多。从2016年7月起,出现较大涨幅,并持续到2017年3月,每月热门文章均在110篇以上。在今年的4月份起,持续四个月相对回落了许多。这部分不知道原因何在,难道是太热了,大家创作欲望低迷?

2、24小时分布情况

接着看看发布时间情况,11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,可见鸟儿大了,什么林子都有啊。逃......

3、2017年热门文章

看了那么多历史的数据,那么到底今年有哪些热门文章?到底作为一名普通的作者,该如何写出广受好评的文章呢?

筛选下本年度按获赞数降序的文章,如图,简单浏览下标题,发现非常多设问的句式,想诱导人点击阅读,哪能不用“问号”呢!很多作者的经验分享,或者称作“教做人”的文章?而偏技术性的文章几乎没有,当然原因可能很多,个人也有个人的看法。不过对我来说,倒是可以努力写写数据分析和可视化的文章杀进去,占得一席之地。横空出世,石破天惊,一鸣惊人,@Deserts_X,决定就是你了!咱们年末热门文章见!

4、阅读数、喜欢数与评论数

一篇文章的热门程度,直观地体现在喜欢数和评论数里,当然前提是有被大量阅读。如图可知,有一篇文章阅读数远远高于所有的文章,那就是@简叔《简友常见问题汇总》,作为简书新手向的使用手册,有此数据,也属正常,虽然不知简叔有多少用户,但86w+的阅读量估计是前无古人后无来者了。

再将目光移动到这篇官方文章之外,首先就能看到第二梯度,20w+阅读量的文章也有近十篇,也是非常难以企及的战绩,虽然其中好几篇的获赞数稍显“平庸”,(手动滑稽)。

换个角度,再看一遍。局部放大,看不到那些讨人厌的神级数据后,觉得神清气爽多了,努力努力应该还是有机会跻身其中的。

5、文章作者

有留心上文CSV截图的,可以对这些文章都是谁写的有了初步的了解。对所有作者进行统计,文章数量靠前的每人贡献的情况如下,也是牛逼坏了。

第一名属于简书一哥@彭小六,共收录了106篇文章。看来分析简书数据永远都避不开的一哥。

并列第二名的是@怀左同学和@韩大爷的杂货铺,均收录了41篇文章。

所有799名作者都有一席之地,按照收录文章数直观的贡献情况如下,最左边和最上边即为排名前十几的作者情况:

切换成曲线图,按降序排列,可见有一条贴近横坐标,长长的曲线。大多数人无法贡献热门文章,能贡献的人里大多数也只能有一两篇惊艳之作。

799名作者中有84名为签约作者,共贡献625篇文章。不过不知道简书现在到底有多少名签约作者。单看此数据,热门文章里非签约作者占比也还是蛮大。

其他715名为非签约作者,共贡献1291篇文章:

将这1916篇文章对应的799名作者生成如下词云,假如今日头条想像签走知乎300大V一样来签走简书大V,大概可以参考此图。逃......

单人贡献5篇及以上热门文章的,共有69名作者。

6、文章标题

不知道有多少人觉得简书的文章太过鸡汤,或者不熟悉简书的人,是否直接就认为“简书=鸡汤”?那到底是不是这样的呢,看看热门文章都有哪些大概就能知道一二了。标题的数据上文CSV也有不少了,此处将所有标题直接丢一个在线词云网站,看看都有哪些词出现了:

什么、如何、书、英语、大学、推荐、自己、人、坚持、努力......这些词所形成的语境,可以照见背后点赞的简书用户组成还是偏于年轻。虽然可能伤到一些人,但个人感觉一个不完全知道自己喜欢什么、有什么爱好、对学习和生活都没有好的把控的人,或许更会汲汲于阅读这些文章,当然这可能是每个人成长中必须经历的过程,看这些文章可能也会有收获,对自己有所指导,但是否又有很多人其实只是点个赞、收藏下,该如何的生活依旧如何的生活,下次看到类似的文章,依旧点进去,依旧退出来呢?

上面的词云还是太过简单粗暴,调用玻森NLP的API,获取所有标题的词频排名前100的关键词,返回结果如下:

没有了杂乱无章的文字后,在精简的词云里,更可以看出,出现最频繁的词有:你、干货、写作、英语、推荐、大学、努力、书、读书、人生、坚持、方法......嗯。

四、小结

所有假如你是一名非简书用户,看到这些词云和标题,你觉得简书是否等同于鸡汤呢?又或者,你已经是一名简书用户,日常看到的文章,首页上呈现的文章,对你来说又意味着什么呢?

非引战,欢迎评论,共同探讨想法。

相关文章

网友评论

  • lanzinuo:图很漂亮
  • liuhaiyang:你好,您分分析源码会公开吗??仅用作学习使用
    古柳_Deserts_X:@liuhaiyang :joy: 没有额。太烂了水平
    liuhaiyang: @Deserts_X 有公开的github吗😬😬😬😬想学习一下
    古柳_Deserts_X: @liuhaiyang 你是指源代码还是爬下来的数据?前者需要编程基础才能看懂,之前也没公开;后者可以分享。
  • 娱情饭桶说:一察觉文章内容是鸡汤,果断跳过不看☺
  • 胡几鬼:之前在一篇文章中看到过分析为何出现这种现象,很多人看文章都喜欢娱乐性的,快速的,最好几分钟就可以看完,就像看今日头条一样,最好看起来简单粗暴不费脑,然后又有一种有所收获的感觉。而有些文章是适合找个安静的地方坐下来慢慢品的,这样的文章简书上有,但是在这种快节奏的生活中,尤其使用简书一般都是在手机上看的,而那种需要坐下来慢慢品的,一般都会选择纸质书,各方面干扰更少。在一堆标题里,放眼望去,你会进行如何抉择。肯定是比较吸引眼球又是你想了解的内容。可能当作者积累了一定的粉丝量,这个时候他会慢慢开始转型吧,这个时候就可以写自己想写的。但前期肯定是需要一些吸引眼球的热文来吸粉,当然也会有一些人并不在意点赞粉丝量之类的,就在简书默默写文,有人看,他欢喜,没人看,他自己品。貌似说着说着有点说偏了,不要介意,就当是纯聊天喽😊🍭
    古柳_Deserts_X:@胡几鬼 吓得我大惊从早到晚失色,突然11个赞,还以为在首页上又发生什么。哈哈哈。再发你11颗小五角星,填满脸:joy: 23333
    胡几鬼: @Deserts_X 这是你的特长和优势,转型与不转型,反正都是朝着自己的目标努力着呗。那为你助一下力,我要把你的文章都看了,然后给个小红心,加油!
    古柳_Deserts_X:很认真的回复,奖励一颗小五角星,贴在额头上。我也属于正在积累粉丝和喜欢数的起步阶段。不过不太可能转型了。还是好好爬数据、分析和可视化去了。
  • 无戒:厉害了
    古柳_Deserts_X:@无戒 :stuck_out_tongue: 感谢之前大打赏。
  • 九秋之菊:果然鸡汤多😂
    九秋之菊: @Deserts_X 非常非常喜欢你的数据说话,理性、平和!20年前我就写鸡汤,出版鸡汤,为了学费和饭钱,但最近10年,我几乎不熬了,而且有些小反感。如你所言,过了那个年龄。😊
    古柳_Deserts_X: @九秋之菊 🙃因为你的评论,我又重读了一遍这篇文章。😂,只能说自己过了看鸡汤的年龄,要是早几年可能这些也会很对我胃口
  • 知识学者:这种数据分析文,不少人写了😂。
    简书是鸡汤,女性化严重,感情性重。
    我学的c++,c😭想分析数据现在,还不行。
    有时间也看看Python
    古柳_Deserts_X: @东风冷雪 不太清楚其他人写的啥,我的可视化还是可以看看的🙃
  • 821057a5c168:难道 就我一个是通过 简书 学习爬虫的吗
    古柳_Deserts_X: @清纯无邪小迷妹 一展身手
  • ff547eb2264e:大神,好想学
    古柳_Deserts_X:@后夏夕颜 :smiley:
    后夏夕颜心静如水: @Deserts_X 好直接…喜欢!
    古柳_Deserts_X:@键盘侠研究中心 曾经留言想学的人,已不知在何方了
  • 最爱是英语:用数据说话,看见真实。👍
    最爱是英语: @Deserts_X 确实啊!这个我倒是忽略了,给你点赞。
    古柳_Deserts_X: @才子志高远 数据有偏颇的话,也会没那么真实
  • e4e753c4378b:大佬,可视化是怎么做的啊?😂
    古柳_Deserts_X: @NSK 🙃上面的评论有写
  • 缺砚一方:刚来简书,这里氛围很好,适合写文字。但通病就是能上热门的文章多是些鸡汤情感,要么就是追热点写爆文吸粉。也有很多真正写好文章的人却不那么容易被看到。
    我觉得这要看简书创业团队给自己的定位是怎样的,如果在流量与知名度上来了,也不去做转变,必然有一批好的作者会离开。
    我更期待简书能成为自媒体时代的一股清流,成为写严肃学问,写有温度,有深度,有思想,有趣文字的天堂。✍✍
    缺砚一方: @江南的猫 哈哈,有道理。🙃🙃
    江南的猫: @缺砚一方 严肃学问的东西是很难市场化,流行化的,能满足你要求的,可能就是目前在科学领域做得比较好的果壳了,既有严肃的学术功底,文章风格也比较接地气,不过目前来看,果壳风格的文章似乎不太可能进入简书热门的。还有,真正有深度,严肃的文章,一般都会注明参考材料,你见过多少简书文章注明参考文献的。。。
    古柳_Deserts_X: @缺砚一方 总感觉没多大希望。(ಡωಡ)
  • 心碎纸人:厉害了我的程序猿老乡🤗
    心碎纸人: @Deserts_X 哎🐒
    古柳_Deserts_X: @心碎纸人 🙃叫你一声纸妹妹
  • 远远歌哥:这篇才是所谓的干货啊,喜欢用数据说话。看来鸡汤的确没我想的那么多,这真是个好现象:+1:
    古柳_Deserts_X: @四爷在此 过了喝鸡汤的阶段🙃
    四爷在此:鸡汤真的多,看了对自己也没啥帮助。。得亏自己是做技术的,知道自己明确想看什么
    古柳_Deserts_X: @程远歌 鸡汤还是有很多的。🙃,逃
  • justZero:这是用啥做的可视化~?
    justZero: @Deserts_X OK ~
    古柳_Deserts_X: @justZero 色彩鲜艳的用的是百度ECharts,其他BDP个人版,还有在线词云网站
  • MJGA:再爬一下首页投稿专题试试
    酒言醉语: @简叔 如今的首页不如今日看点,不知道是人为分流还是别的原因?从效果看今日看点>推荐首页>自投首页,当然,黛玉效果更好,可惜从没上过,哈哈
    古柳_Deserts_X:23333,感觉只能爬到2千篇左右文章,不知道是不是官方有限制和保护措施。另外感觉首页投稿不如今日看点有亮点,后续应该还会继续写几篇简书相关可视化,沾沾简书和简叔的仙气。

本文标题:简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

本文链接:https://www.haomeiwen.com/subject/alyvjxtx.html