爬了5个多月
从2017年6月16日开始,我用自己的树莓派每天爬取简书“短篇小说”集里的文章和读者交互数据,做一些简单的分析输出:
此外,还统计了每天“短篇小说”频道的以下内容:
-
阅读量
-
点赞量
-
回复量
-
打赏量(打赏金额无法获取)
时至今日,已经积累了足够数据,样本集基本满足正态分布:
read_hist.png
感兴趣的可以通过这个链接看基本数据。
关于数据清洗
从第一幅图中可以看到一些数据断片和毛刺,原因有以下几个:
- 公司停电
- 出国坐飞机
- 简书修改了页面html导致爬虫失效
- 重启爬虫导致爬取时间间隔不是严格的24小时
好在断片比较好处理,都设置成均值即可。
对于造成毛刺的outlier,若其zscore<-2或zscore>2,也设置成均值。
这样处理对于统计结果不会有影响。
先说结论
-
写短篇小说很难赚钱
看第一幅图里底部那条羸弱的黄色曲线(那是每日打赏次数),从来都没有雄起过。
确切的说,每日打赏次数稳定地维持在32次/日,占阅读的比值大概0.3%。
单独拿出来看,曲线是这样的:
moneyline.png
从直方图可以看到,这个分布是正态的。
也就是说,短期不会改变。
而落到作者头上的分布完美匹配长尾:
money.png
以上统计是过去5个月的数据。即使是收到打赏最多的作者,也就300多次,算算也没多少钱。
-
阅读量在缓慢增长,但是很慢
read_per_month.png
如图所示,在8月份阅读量有所上升,但是后来又降下来了,造成整体趋势没有统计明显的变化。无论做t-test还是ANOVA都得到“没有变化”的结果。 -
新小说数量和回复量稳步增长
new.png
和阅读量、打赏量不同的是,每日新帖的数量和回复量在稳步上升。
仔细看看回复的内容,能够明显分析出来,是作者们在互相鼓励,提建议等。
希望这种“自我鼓励”能够带来更多的读者。
变量间的相互关系
correlation.png分析所爬取的各种变量计算相关系数,得到上面的图,以及以下观点:
- 阅读量的提高能够拉动新帖,点赞,回复和打赏。
- 阅读量、点赞、回复,三者之间有强烈的正向关系。
- 至于打赏,各种关系都不强烈。
更细节的非线性关系如下
read_like.pngread_reply.png
阅读量对于点赞和回复的正向关系是非常明确的。
即使在非线性模型下,依然表现出“线性”的正向。
点赞量和回复量在正太分布的主要区间内有正向关系,但是在分布的两端却出现了逆转:
- 点赞量很少的文章,回复量却反而提高。
这应该是有大牛在鼓励新人,或者说,带小号吧。 - 点赞量巨大的文章, 回复量反而有下降。
这说明经常回复的人只是一部分固定的人。除开这些人,其他人大都点个赞了事。
同样的模式出现在了点赞和打赏的关系中:
like_money.png
从这些“扭曲”的关系里看出,读者中的确有一部分是抱着”特别任务“来参与阅读和交互的。
总结
如果“短篇小说”频道继续以以往的方式运营下去,看来是难有突破。因为打赏的水平非常低,所以只能靠签约来养活作者。但是给作者多发了工资,并不能提高打赏的数量,换句话说,平台抽水还是微乎其微。
因此,“短篇小说”频道,乃至简书整个平台,都需要思考另外的方式来养活自己和作者们。比如借鉴知乎出书,或者豆瓣的一些方式。
网友评论