美文网首页H5谈写作妙笔生花
简书推荐作者风云榜(爬取简书app数据)

简书推荐作者风云榜(爬取简书app数据)

作者: 古柳_Deserts_X | 来源:发表于2017-08-27 22:57 被阅读5830次

一、前言

自处女作《爬取张佳玮138w+知乎关注者:数据可视化》一文分布后,来简书快一个月了。但一直不怎么熟悉这个平台,因此,这回爬取简书app里的推荐作者并进行简单可视化,以增进对简书的了解。

二、爬取简书app

爬取简书app的过程此文不做过多展开。大致过程如下:

用fiddler软件抓包手机上的简书app数据。找到API,看到返回的JSON数据,格式齐整:

把JSON数据复制到Chrome浏览器的JSON-handle插件里,方便查看格式和后续爬虫里写提取信息:(很少看到有人提到这个插件,也是蛮奇怪的)

写好爬虫代码,爬取数据并存入CSV文件里,发现一共230名推荐作者。但由于部分数据乱码,也是很奇怪,以前爬知乎和微博,也是找API从JSON里提取数据,并不会有一部分出现乱码。无可奈何,只能对应的补救下。由于数据里不包含粉丝数等信息,需要再根据每个推荐作者的ID,到各自主页爬取数据,整合后格式如下

三、数据可视化

3.1 推荐作者

爬完数据后,开始检验成果,进行可视化,先将230名推荐作者“丢到”词云里,直观地看看都有哪些人:

但没有以粉丝数为权重,所以看不出V大V小,于是再丢一遍:

可以看出推荐作者里粉丝数前十的大V有:简黛玉、刘淼、彭小六、江昭和、简书播客、简叔、韩大爷的杂货铺、Sir电影、饱醉豚、冷眼观史。此外发现“简书”系的还有简宝玉、简书出版、简书茶馆BossYe、简书活动精选、简书牧心、简书福利社社长简东西、简书大学堂.....

怎么可以这样,安插这么多官方(大概都是官方的吧,未考证)的账号,应该把更多位置给其他优秀作者嘛,比如有个非常有才华的作者,叫做@Deserts_X,他略施魔法就使Top 100的推荐作者们动了起来,并且顺带骗走了你8M的流量,这么厉害,还不关注一发

当然一直看这些作者的昵称其实还是不知道谁是谁,子曾经曰过:“无图无真相”,那么把所有作者的头像拼个图来看看,发现人像比重非常大啊,看来想成为推荐作者,必须要把头像换成帅气的自己才行,不说了,要去换头像了,不对,要去整容了,再见

3.2 粉丝数之长尾效应

接着按照推荐作者各自的粉丝数降序排列,可见曲线情况非常类似著名的“长尾效应”。当然右侧尾部并不是无限长的,也不算完全符合。

上图可知,所有粉丝共计3975524人次,如果选取粉丝数排名前30的作者,可知其粉丝数已经接近总粉丝数的一半,马太效应明显(是这么用的嘛,有点怕误人子弟)。

3.3 贡献情况

看完了上面的图,我们不禁发问,这些作者凭什么成为大V,成为推荐作者的呢。因此继续看看他们发布的文章数和写作的总字数情况:

文章数直接几百上千,总字数更是百万级别。百万级别是个什么概念的,谷歌了下《论语》约1.6w字,《老子》约5k+字数。除一下,推荐作者高产似那啥,创作了大概好多好多部《论语》《老子》的内容,由此可见,名副其实,当之无愧的推荐作者呀。回头看了下我的总字数,差不多也有一本《论语》加一本《老子》的字数了,23333。

继续给上图加上粉丝数(圆圈颜色)和获赞数(圆圈大小)

可见虽然@Sir电影以一己之力将图表大小扩大到了Plus款,但敌不过@彭小六才是当之无愧的“吸赞狂魔”啊,394篇文章,621858字数,219218赞数。就问你怕不怕。

按赞数降序可知,其他作者的排序如下,看来要好好研究下,怎么写出“人见人爱,花见花开”的文章呢!不说了整容的路上好好看他们的文章。

3.4 签约作者

再来看看推荐作者里签约作者的比重。在230名推荐作者里,共有75人身兼签约作者之头衔,另外155人暂时无此头衔。再把这75人丢到词云里(重要的作者丢三遍):

愣着干嘛,顶礼膜拜,高呼“苟......”,有点暴力......

四、小结

没有小结,只有写文后的高兴,和不知道有没有人看的迷惑。评论里见。

相关文章

网友评论

  • vbertcen:老大 问下 你那种关键词频率越高,字体越大的可视化效果叫什么?我怎么搜索关键词,我也想用python实现
    vbertcen:@Deserts_X 谢了
    古柳_Deserts_X:@vbertcen 词云,wordcloud
  • 陆小昆:喜欢这种有创造性的文章,很干货,技术人不务虚,给你点赞:+1:
    古柳_Deserts_X:@行空随想 没什么干货,其实很水的,还需努力
  • 人生匆匆如过客:本人小白一枚,有空一定拜读大v作品,学习学习
    古柳_Deserts_X:@人生匆匆如过客 这篇的数据有局限性,可以看看另一篇简书都多少签约作者,https://www.jianshu.com/p/ba7aaead8023。不过也都好几个月前了,时效性欠缺
  • 地瓜番薯:有简书api吗
  • kunkun_1230:求教文章里面那个头像拼图是用什么软件做出来的啊?
    古柳_Deserts_X:@kunkun_1230 用代码,Python PIL库做出来的
  • 三人行大道:完整代码 可视化 搞了好长时间了 ,特别是词云就是搞不好
    古柳_Deserts_X:@橘子景 其实我之前的词云主要是用了一个在线词云生成的网站,还用过一个snownlp的api来分词的,自己用python搞的词云倒还没怎么试过,不过网上这类例子其实很多,你可以多参考下哈。
  • 柚稚妈妈:我也是推荐作者,但还不是签约作者,希望有一天能在你的排名表里有我的名字!只能对自己说:加油,加油!
    柚稚妈妈: @Deserts_X 嗯!很厉害了!你是这方面的人才!金子会发光,你会闪闪发光的!
    古柳_Deserts_X: @柚稚妈妈 这篇文章之后才知道不够严谨。很多专题有推荐作者,总量远多于本文所涉及数据
  • 无戒:膜拜,只能说。
    古柳_Deserts_X:@无戒 :smiley: 膜拜签约作者们
  • 就爱嗑瓜子:韩大爷的杂货铺,彪悍的一只猫,怀左同学我都关注了😀👍
    古柳_Deserts_X:奖你一朵小红花和一枚贴额头上的红五角星。
  • 祝小妞:数据帝!!争取有一天看到我的名字!!!
    古柳_Deserts_X: @祝小妞 新年快乐,心想事成。逃
  • 与善念相伴:那么最容易签约的是哪些类型啊?
    与善念相伴: @与善念相伴 谢谢回复噢,互相关注哈,祝好😊
    古柳_Deserts_X: @与善念相伴 这个问题回答不了,涉及因素太多,就跟问干什么最容易挣钱差不多。已经筛选出了这部分用户,可以去他们主页了解他们写作的方向和内容,分析他们成功的原因。
  • 张拉灯:很棒 期待更多类似的文章 膜拜技术大佬
    就爱嗑瓜子: @张拉灯 大神看到你了吗😀
    张拉灯: @Deserts_X 😂😂等你!
    古柳_Deserts_X:@张拉灯 原本打算根据这篇小火了下的文章的反馈数据:点赞、评论、关注等分析下,无奈懒癌,写作动力有点不足:no_mouth:向推荐作者、签约作者大佬们学习
  • South_Lin: 马太效益是强者更强,弱者更弱的意思,用在此处似乎不是很贴切。
    古柳_Deserts_X: @South_Lin 嗯嗯,这是自然,粉丝数受各方面影响,并不直接由实力决定
    South_Lin:@Deserts_X :crying_cat_face:好吧,我本来想表达:粉丝数少不代表是“弱者”,粉丝数少的作者不代表写得不如粉丝多的作者好的意思~
    古柳_Deserts_X: @South_Lin 搜了下:马太效应(英语:Matthew Effect),是指“好的愈好,坏的愈坏;多的愈多,少的愈少”的一种正反馈现象。这里其实想引申为粉丝数多的大V会吸粉更多,“贫富”差距之类的意思。还是有些地方符合的🙃
  • 浪费了昨天:厉害了,老铁!
    古柳_Deserts_X:这篇真的一万个没想到会小火了下,直接碾压了处女作张佳玮那篇,挂了一个月各项数据全面被这篇一天内碾压,2333。正好可以针对这篇的获赞和关注情况,进行后续分析下,于是又有了写作素材,2333
  • 黄咚咚:一个电脑只会开机关机和用word文档的宝宝震惊到下巴半天合不上:scream:
    三名狂客:@Deserts_X 难者不会,会者不难!
    古柳_Deserts_X::stuck_out_tongue_closed_eyes: 其实很多东西只是表面上很高端的样子,真的干的话,其实并不一定就很难。比如里面绘制的散点图,可能比excel里画图还要简单。下巴表示:我还可以抢救一下。
  • handsome乔淘气:滚动的图片就是上面好多名字的那个,怎么做的??
    古柳_Deserts_X:@handsome乔淘气 BDP个人版里可以上传数据拖曳自动绘制图表,里面有个词云,词云里有个3D模式,就能形成上面的效果。其他步骤可参考下《(送福利)BDP绘制微博转发动态热力图》http://www.jianshu.com/p/112fe198695c。
    handsome乔淘气:@Deserts_X 神奇的魔法~魔法软件叫啥
    古柳_Deserts_X:用膜法呀:no_mouth:
  • 郝晶读书会:太厉害了,你做什么工作,是数据分析师?
    古柳_Deserts_X:有往这方面发展的想法,不过目前还太渣了,走路都掉一路的渣。(逃)
  • 上进青年欢乐多:技术流。
    古柳_Deserts_X: @上进青年欢乐多 我还会念两句诗………………………………白云山上白云泉,泉自无心云自闲。
  • 齐原缘:哇 大叔好棒。我也是程序媛啦啦啦 不用找了 上面没有我😎
    齐原缘: @Deserts_X 祝好叔叔七夕快乐!🌞
    古柳_Deserts_X:@齐三岁 这个手刹不太灵,这个杀手不太行。看在你三岁的份上,忍气吞声认了这一声“好叔叔”
  • 噫树:我想知道文章都用到了那些技术,我想学习学习,有代码最好了:+1:
    古柳_Deserts_X: @lao_N 你要学到了东西🙃为你高兴🙃
    噫树:@Deserts_X 哦哦 谢谢,就是想知道下 您的词云是怎么绘制的,现在知道了,谢谢:smile:
    古柳_Deserts_X:额,一言难尽了。主要的话python爬虫,大家网上教程学习下,以后自己一定可以爬我文章里的数据的,可视化的话就更简单了,直接词云网站和BDP个人版网站上绘制的。
  • 姜晓渔:必须关注一下
    古柳_Deserts_X:@姜晓渔 其实这两本书都有电子版的貌似,倒是不必非买,花冤枉钱:stuck_out_tongue: 省下的钱就可以打赏了。(这个人好坏哦):no_mouth:
    姜晓渔:@Deserts_X 果断买了你推荐的两本Python书
    古柳_Deserts_X:转体三周半加抱膝感谢
  • 苏篱落:厉害了厉害了 我反手就给你
    一个赞
    古柳_Deserts_X: @苏篱落 🙃今天的赞好多好开心
  • 睡睡睡不醒:卧槽卧槽卧槽太他妈6了,反手关注
    古柳_Deserts_X: @枕水 一个托马斯回旋后抱拳感谢
  • 9b9fd976c95b:为啥就没人问这些图的制作方式(是不是我太土鳖了:first_quarter_moon:
    古柳_Deserts_X: @buzaowa 14楼小迷妹表示:你当我是死的嘛。
  • Anomaly:其实抓接口不用那么麻烦,chrome F12 切换到手机模式。。。简书手机版走的全部是接口!
    古柳_Deserts_X: @Anomaly 不麻烦啊,双击打开软件就能抓包,和F12也就差点个鼠标而已,而且不确定手机app能用F12抓包?我连API复制到网页里都看不到返回的数据,
  • 古木夕阳:估计是非技术流,崇拜吧
    古柳_Deserts_X:@古木夕阳 其他同时还爬了推荐专题,那个词云里就更明显的可以看出偏文艺的专题粉丝数超级多了。
    古木夕阳:@Deserts_X 写文章的人,还是文科生偏多,也就是文艺青年比较多,技术男偏理科多……
    古柳_Deserts_X: @古木夕阳 🙃没明白非技术流指的是啥
  • 壹米:666666
    壹米:@Deserts_X 就是棒
    古柳_Deserts_X: @喵呜丶 让人可怎么回复你好嘛!🙃
  • 冬少爷:好牛逼的样子😂
    冬少爷: @Deserts_X 你这个真的很专业
    古柳_Deserts_X: @冬少爷 🙃自己凭本事装的逼一定要吹下去
  • 季动:牛逼,反手一个关注
    古柳_Deserts_X: @季动 老板,打包带走
    季动: @Deserts_X 简书有
    古柳_Deserts_X: @季动 收到信息不断,我要红了!我要红了!🙃我要告诉女票,不对我没有女票
  • 合小沫:哇哇哇:smile:看到了大神们:heart_eyes:
    古柳_Deserts_X: @一河漪沫 🙃开心不
  • 共央君:厉害了,隐约看到了自己的名字
    古柳_Deserts_X: @共央君 头像坐标(10,3)。膜拜大佬
  • 欧巴冰冰:平常我对你也不错啊大表哥,怎么关键时候把我名字漏掉了呢。是不是他们(上列大V)贿赂的比我多哇。。 :grin:
    欧巴冰冰:@Deserts_X 我怎么说我写代码老出BUG, 原来你在简书 "反体字里面下毒" ………………(信号断了)🙃
    古柳_Deserts_X: @冰心小记 表@“*&”妹*#¥啊%+*我¨|这&=*里*&信*%号#&不*#太&%好¥*下#%回$&聊🙃
  • 牛皮社:就佩服技术流的,用科学来分析文学:+1:
    古柳_Deserts_X: @郑天伦 🙃文学
  • 不惊不扰:反手就是一波关注
    古柳_Deserts_X: @不惊不扰 中得桃花签一枚,得此签者,七夕之日,关注 @Deserts_X 便会有一波桃花运
  • DoctorLDQ:就是不太懂这些图怎么做 :joy:
    古柳_Deserts_X: @DoctorLDQ 🙃哈哈,我还以为是迷弟。不知木兰是女郎
    DoctorLDQ:@Deserts_X 哈哈 开森 抓了很多数据 不晓得怎么可视化 多谢多谢 从此成为你的迷妹
    古柳_Deserts_X: @DoctorLDQ 🙃老面孔了。既然你诚心诚意地问了 那我就大发慈悲地告诉你:词云分别用到了俩在线生成的网站,直接谷歌词云就会有很多网站可以试试,权重设为粉丝数。3D动态的词云和后面几张散点图气泡图用的BDP个人版,直接上传数据,拖曳就能生成对应图表,不用Python代码,不用百度ECharts的JS代码。头像拼图用的Python PIL库拼接...如此详细如此干货🙃
  • de4a21ec76a0:建议用聚类做一下内容,看看排名前75的都写了啥。
    古柳_Deserts_X: @最后的太阳 😂还没有。了解的不多,之前只看过篇王树义的提取关键词和聚类的文章,不知道对你有帮助不。
    de4a21ec76a0: @Deserts_X 最近做聚类碰到点问题,pca降维内存不足,可能要用Hadoop,不知道您有没有更好的办法。
    古柳_Deserts_X: @最后的太阳 这回没有爬文章,只爬了一些数值类数据。对文本进行分析的想法一直有,以后会尝试看看。🙃
  • 司文秦:腻害啊!大神!
    古柳_Deserts_X: @司文秦 爸爸问你为什么跪着看完了本文
  • 巴黎有朵瑜:😆好厉害、
    古柳_Deserts_X: @巴黎有朵瑜 不。我不走,我要留下来
    巴黎有朵瑜: @Deserts_X 😏🚀飞机票都不送你,直接火箭走起
    古柳_Deserts_X: @巴黎有朵瑜 膨胀值已飞速飙升
  • 明明如月520:腻害
    古柳_Deserts_X: @明明如月520 🙃快要膨胀,快要满出来了
  • HelloBunny:这篇文章有趣!一些东西用数据借助电脑体现出来就是不一样!😄
    古柳_Deserts_X: @HelloBunny 一语中的,再而衰,三而竭。(语文老师看了想打人)
  • 舒文姑娘:厉害了,我超喜欢怀左同学的☺☺☺
    古柳_Deserts_X: @舒文姑娘 🙃好像很不错滴样子,待俺老孙前去一探究竟。
  • 心碎纸人:哇😮好神奇
    古柳_Deserts_X:@心碎纸人 其实发现推荐作者数据应该是动态变化的,每天都不一样,所以没住有你,但可能昨天爬的时候不在里面,2333,共同努力啦。
    心碎纸人: @Deserts_X 呜呜呜,好忧桑,木有我呢,我会努力哒,等你下次做的时候就会有我了,嘻嘻
    古柳_Deserts_X: @心碎纸人 头像萌cry,习惯性在里面找了下有没有你🙃
  • 简书牧心:其实我真的不是简书官方人员,我的笔名本是牧心,牧心在简书被人抢先用了,无法再使用,我一想这不是简书平台嘛,就在笔名前加了简书二字。简书牧心就是这么来的:smile:
    古柳_Deserts_X: @简书牧心 简书一巴掌甩我脸上,并说道:“你也配姓简”
    简书牧心:@Deserts_X 签约非签约都是一家人
    古柳_Deserts_X: @简书牧心 原来如此,不过签约作者和简书也算一家人了吧😊
  • 书香云舍:有点意思。找了半天,没找着自己🤓🤓
    古柳_Deserts_X:@书香云舍 嗯,早上也看到你在本日的推荐作者里了,看来这部分是每日动态变化的,所以昨天的数据里才没有。
    书香云舍: @书香云舍 感谢回复,才成为推荐作者一周。专题主编是系统根据给专题投稿数量、上首页次数、阅读量等加权自动算出来的。主编们并无人工参与
    古柳_Deserts_X: @书香云舍 2333。词云里比较难找。直接在头像拼图里找快点,应该是没有在里面,🙃
  • 古柳_Deserts_X:睡前一个困惑,既然推荐作者不算是签约作者,那一个人怎么知道自己成了推荐作者,推荐作者的评判标准等等都还不太清楚,待挖掘。
    苏羽Loner: @Deserts_X 20块钱的皮包给我一个。😂
    古柳_Deserts_X: @苏羽Loner 感谢解答🙂,我猜推荐作者也不止230人,应该是每天动态变化的。看来本文误导了大家。赶紧带上小姨子跑路
    苏羽Loner: @Deserts_X 现在较多专题都有了新的推荐位,专题推荐作者100人,这个曝光吸粉效果也比较好,都算上现在推荐作者其实很多了。简书的推荐作者大多是主编副编或签约申请没过的。
  • 梅山主人:厉害👍
    梅山主人: @Deserts_X 哈哈,顶你呦
    古柳_Deserts_X:@木岸_ 其实这篇不怎么厉害的,但没想到一写完就被推荐到首页了,赞数涨的也比以往快。
  • 古柳_Deserts_X:无法@推荐作者里粉丝数前十的大V有:简黛玉、刘淼、彭小六、江昭和、简书播客、简叔、韩大爷的杂货铺、Sir电影、饱醉豚、冷眼观史。
    欧巴冰冰:平常我对你也不错啊表哥,怎么关键时候把我名字漏掉了呢。是不是他们(上列大V)上的礼比我多哇。。 :smile:

本文标题:简书推荐作者风云榜(爬取简书app数据)

本文链接:https://www.haomeiwen.com/subject/rvzbdxtx.html