美文网首页Python 开发python爬虫实战程序员
简书用户数据第二篇(多图)

简书用户数据第二篇(多图)

作者: 浪费了昨天 | 来源:发表于2017-08-21 15:54 被阅读1445次

简书用户数据第一篇之后,现在出第二篇啦。先看下数据分析的结果大概长什么样!

好吧,我是给文章填个头图而已

图里面是什么呢,下面就开始说说


这篇文章主要是对用户的动态做分析。

0.分析什么

说是对动态做分析,啥是动态?就像你微信朋友圈的发表、点赞、评论、被评论一样。你在简书的操作也被记录下来啦,像这样:

简叔CEO简叔的动态

在简书的可见动态分为八种类型:发表评论,喜欢文章,赞赏文章,发表文章,关注用户,关注专题,点赞评论,关注文集 。

1.数据从哪里来

当然还是用python写爬虫代码来简书抓了,一个个复制粘贴是不可能的,要又要不到,只能写爬虫来抓啊,这样子才能维持数据来源……

看,蛮快的!数据嗖嗖的就来了,还不是美滋滋~

爬数据

2.分析过程

略(不要在意这些细节,直接看结果啦)

3.分析结果

先以简叔为例吧,记得刚注册简书,就收到一个私信,我还以为哪妹子看上我了!
嗯,扯远了。咱还是来认(hu)真(luan)分析一下数据吧。

3.1基本信息

截止至2017-08-20 18:32:11,也就是我现在码这段字的前几秒。简叔关注了2346个用户(说好的上限1000呢~)。粉丝87137个,粉丝排行榜前几名啦。
发表文章122篇,收获喜欢30137,喜欢文章11292,嗯?点了那么多喜欢?
发表评论8454次,打赏文章2128次,土豪吧。想到我占1/2128,不禁有些激动。

3.2 第一次

随着动态越来越多,因为动态按时间倒排,你可能翻了跟多页还是不知道你在简书第一个关注的用户,喜欢的文章,发表的评论。没关系,我记得(能快速找出来……)!
咱们看看简叔的第一次!

2012-09-05 11:26:57
注册,加入简书。

(我以为是第一个注册用户,去抓下来的用户中查了下,larryzhao是2012-09-05 11:08:37注册的,早十几分钟。看了介绍,这个也是简书联合创始人。应该没有比这早了的吧)

2012-12-20 15:31:53
第一次发表文章:价值主张的工作表

2012-12-13 17:19:31
第一次喜欢文章:简书发表的献给写作者的 Markdown 新手指南

2013-05-23 05:36:28
第一次关注用户:赵云波

2013-12-08 11:40:56
第一次对文章 为什么你应该每天写作 评论:
“我觉得哪怕真是有兴趣,要坚持每天写作也是非常困难的事情。一周写上一篇,或者一个月写上一篇,这种才是休闲活动。「每天写作」这个行为绝不可能成为一项「休闲活动」。可以做到「每天写作」的人,要么他是一个真正从事文字工作的人,要么他对「每天写作」这件事情有一种强迫症。”

嗯,同意简叔3.6年前的观点。天天喊着「每天写作」大都是文字工作者。上班族们,不要一听别人的鼓动就给自己立个誓,到时候打脸的可是自己啊!一天记流水账似的一篇,干嘛,感动自己啊?

2014-03-27 12:37:08
第一次关注文集:社区的艺术

文集这个概念在别的用户浏览的时候好像不是那么重要,所以一般关注文集较少或没有。

2014-07-30 06:13:35
第一次关注专题:毒眼寻珠

2015-03-30 11:47:11
第一次打赏文章 :刘淼 发表的20150318村上问答之「我的生活正发生怪事」

2015-07-27 17:01:30
第一次赞了评论: 我的比较波折,第一次发被快递的临时工搞丢了,简书服务不错,帮我和中通交涉,中通赔了钱,后来补发了一份。书看完一本了,还不错诶,好评!
这个文章已经不在了,文章应该是关于简书出版的书。

3.3 各种动态占比

动态类型占比.gif

喜欢文章、发表评论、关注用户、赞赏文章,这四种占比较高,说明简叔还是很关注和支持简书的用户创作。

3.4月度动态趋势

月度动态.gif

总体呈波段上升趋势,简叔在简书平台还是很活跃的。

3.5 日动态趋势

自注册以来,每天的动态次数。像这样,密密麻麻

峰值是 2016-01-04,这天动态次数212次。因为图较大,降低了帧率,所以看起来有些卡顿。

3.6 时动态趋势


如果按11点以后算熬夜的话,可以看出简叔还是有不少熬夜情况的。大叔,注意身体!


白天各个时间段浏览简书较均衡,毕竟是老板,没有确切的工作时间段。有事没事刷下简书!

3.7 周内发表文章频次

发表文章.gif

圆形气泡越大,代表发文章频率越高。简叔非工作时段发文还是蛮多的。
其他用户分析的,文字工作者一般都是集中在周一到周五,上班族周六周日更集中一些。
要想诗和远方,还是要先解决眼前的苟且。

3.8 周内喜欢文章频次

喜欢文章.gif

啊!什么鬼?一个个连续的饱满的小球。09:00-15:00,21:00-0:00。这两个时间段内简叔喜欢文章很频繁,下午少一些。

3.9 周内关注用户频次

关注用户.jpg

早上关注用户多一些?

3.10 周内打赏频次

打赏.jpg

晚上打个赏?


3.11 发表的评论

对所有评论进行分词,词频统计后制作出词云,然后……



评论词云.gif

哈哈哈,简叔天天好开心啊!!!

愿大家都有简叔的心态!!
你还愣着干什么?笑啊!

4.最后

其实我已经在封装爬虫和分析过程及web展示,由于域名过期还没来得及上线到服务器上,完整的是requests+mongodb+flask+echarts集合成的微服务。输入个人主页,就能交互式自动生成展示页面。如输入彭小六主页,提交后显示分析结果:


web展示

项目(gayhub地址)还在筹备中,后面会上线该服务供大家访问浏览。


相关文章

网友评论

  • _夕羊_:简叔说收了你,我很想知道你现在去哪儿了!
    浪费了昨天:@罗夕羊 哈哈,说着玩呢吧。在上海一家小公司,没敢去面简书哇😂
  • 邢博士谈科教:请问楼主是用R还是python做的可视化啊👍😊
    浪费了昨天: @Zihaoxingstudy python+echarts
  • Rijkaa:star~star~star~
  • 0fdb8258ab94:昨天君,你用的什么软件?分析出那么好的图表,有没有这个应用的专题?
    0fdb8258ab94:@浪费了昨天 谢谢!
    浪费了昨天: @Team1599 用的echarts3.0,你可以百度去看下,这是百度公司为数不多的好产品了😳
  • 福二姨:哈哈,太牛了!
    不过,“你知道得太多了”,要不要灭个口啊?哈哈哈哈
    福二姨: @浪费了昨天 哈哈哈哈
    浪费了昨天: @福二姨 我要把手机丢了,收拾细软跑路了😳
  • 左蓝:温馨提醒:根据最新的网络安全法,你这行为可能有点擦边,注意别商用就好了。
    左蓝:@福二姨 现在非法采集用户敏感数据可以直接判刑了(3年以下),虽然作者采集的不能算敏感数据,但是对于简书来说是重要的数据资源(类似采集豆瓣评分、知乎回答、淘宝评价等),如果商用简书是可以发起诉讼的。参考《网络安全法》。以上的前提是大规模采集,个人分析不在范畴。
    福二姨: @浪费了昨天 可以商用,帮作者分析分析前景和方向什么的,保管很多人来找你,哈哈
    浪费了昨天: @左蓝 哈哈,个人玩的,没商用。这也没敏感信息,应该没问题的
  • qwemb:简叔被扒的好彻底:stuck_out_tongue_winking_eye:
    浪费了昨天: @Ric庆余 呃,我不是针对他,是在坐的所有人😏😏
  • c7491b227203:hello world
  • 若锦:厉害了我的哥:smile:
  • 粘粘啊:我好奇哪个时间段在简书看文的人最多。☺☺
    粘粘啊: @浪费了昨天 嗯,蛮好的👍
    浪费了昨天: @夏初杨 这个可以有,分析用户喜欢文章的时间就可以。这篇文章主要个性化对单个用户分析
  • 南漂一号:这个世界只有两种人:1)程序员们;2)我......:cold_sweat:
    浪费了昨天: @南漂一号 哈哈,你大概是周围程序员太多了……
  • 古柳_Deserts_X:厉害到没有朋友,比较关心搞了多久
    浪费了昨天: @Deserts_X 你比我厉害啦。断断续续搞了一段时间了,摸了不少坑……
  • 安掌柜:简直就是大神的存在感👏👏👏👏
    浪费了昨天: @安掌柜 并不是大神🌚
  • 翠娥Z:小编这数据分析得好搞笑😂
    翠娥Z: @浪费了昨天 简书评论又多了一群哈哈哈
    浪费了昨天: @掏心窝子 笑一笑十年少😏
  • 浪费了昨天:我把简叔扒了,会不会被打。是不是该跑路了😭
    翠娥Z: @浪费了昨天 👍明白了,你只是捕捉了用户动态
    浪费了昨天: @掏心窝子 不是漏洞啊,漏洞是黑客搞的。我的程序只是像人一样,在简书浏览页面上能看到的,只是比人快很多😁
    翠娥Z: @浪费了昨天 你的确知道得太多了。这是简书后台数据库有漏洞啊🐱
  • MJGA:我擦大神
    琢爱舟:@浪费了昨天 两篇文章都很棒!立刻关注。要是你还有年龄的数据、写一篇文章需要多少时间、读文章多少时间,每天有多少访问量,那就更说明问题了。因为我感觉简书的作者、编辑真勤奋,只是平台的群众基础不广,给予作者的关怀不多。
    琢爱舟:@简叔 诚信佩服那些日更的作者们,动辄几千字原创,那都凝结着心血。
    浪费了昨天: @简叔 无名小码农🐱
  • 彭小六:感觉自己内裤要被扒
    浪费了昨天: @彭小六 又没什么见不得人的事😏最后一张大图是你的😊
  • 彭小六:@简叔 这样的人才不该直接收了么?!
    MJGA:@彭小六 收收收
  • 前荍:昨天没有浪费😂
    浪费了昨天: @秦印明 至少今天不能浪费😂
  • 金戈大王:厉害厉害👍
    浪费了昨天: @金戈大王 谢谢!
  • 追梦的小胖:不错。分享一下源码吧
    浪费了昨天: @追梦的小胖 点击底部,github的链接。😊
  • 谢mingmin:我比较好奇大V里的打赏用户的活跃情况
    浪费了昨天: @谢mingmin 哈哈,打赏人一般从简书和微信(一位没有痕迹……)对文章进行打赏。我目前抓得都是活跃用户,所以打赏人也是活跃的,还没有大量文章的打赏数据。
    从打赏这个角度这个不错,后面分析下😁

本文标题:简书用户数据第二篇(多图)

本文链接:https://www.haomeiwen.com/subject/gyfcdxtx.html