关于背单词软件,你不知道的惊人真相

作者: 无与童比 | 来源:发表于2016-02-24 20:39 被阅读14266次

0x00 前言

你想知道背单词软件有大概多少人注册第一天都没有背完嘛?
你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛?

别急,Python程序员用数据给你说话.

文章目录如下:

0x00 前言
0x01 问题的提出和任务的分解
0x02 任务一,信息爬取
ox03 任务二,清理和存储
0x04 任务三,分析
0x05 任务四,结论
0x06 整个流程的不足和反思.
0x07 代码.

0x01 问题的提出和任务的分解

前两天,就在一个雷电交加的夜晚,我躺在床上,草草的看了一篇英文文章,突然想到一个非常有意思的问题:

是不是大部分的人做事真的不能坚持呢?比如,背单词.

好,那我就看看到底有多少人是坚持不下来的?

那么,我们的问题就变成了这样子:

有多少人是在坚持或者曾经坚持过背单词呢?(假设100天以上算的上是背单词的话)
有多少梦想,毁于不能坚持?
背单词的人们学习的量,是不是符合正太分布呢?

于是我选中了业内的标杆扇贝软件作为分析的对象.抽取其中的大约1/30的用户的公开数据,也就是游客用户都可以看得到的数据,进行抽样调查.

调查的具体内容如下:

打卡最高/成长值最高/学习单词数量最高
平均每个人打卡次数/成长值/学习单词数量
打卡/成长值/学习单词数量的分布(也就是已经坚持了多少天了)

那么,我的任务也就可以分解如下:

爬取数据
- 使用Python2的Scrapy进行爬站
清理数据
- sql语句和pandas运算
分析数据
- pandas + seaborn + ipython book
得出结论

0x02 任务一,信息爬取,清理和存储

每个用户的信息都在这里:

http://www.shanbay.com/bdc/review/progress/2

使用beautifulsoup4 进行解析即可.其他部分参考代码.

扇贝的工程师反爬虫做的还不错,主要有两点:

访问数量超标,封禁IP半个小时.对应的方法就是代理服务器.(代码中已经删除代理服务器,所以,如果你运行不了代码,那你应该知道怎么做了.)
cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie.

0x03 任务二,清理和存储

对于数据库,使用Postgresql存储就好了.也没有什么大问题.参考代码.有问题在评论下面问.

通常情况下在存入数据库的时候需要进行数据的净化,不处理也没有什么大问题.

0x04 任务三,分析

分析阶段,使用IPython notebook. 通常情况下,我们使用的是Anaconda里面的Python3版本 .可以到这里下载,注意,mac和ubuntu下载的是命令行版本.

https://www.continuum.io/downloads

安装完毕以后,重启终端.环境变量生效.

#直接安装seaborn
pip install seaborn

切换到指定目录然后敲入命令ipython notebook打开浏览器进行编辑.

至于怎么使用,请看代码.

0x05 任务三,结论

在这里省去部分的分析过程直接贴出结论.

总共抓取1111111张网页,成功获取610888个用户的信息.

于是得出结论如下:

扇贝之最:

最高打卡天数: chainyu 1830天
最高成长值: Lerystal 成长值 28767
最高单词数量: chenmaoboss 单词量 38313

平均到每一个人身上

平均每人打卡天数: 14.18,而超过成长平均值的人数为71342,占总抽样人数的,额,11.69%
平均成长值: 121.79,而超过平均成长的人数为13351,占总抽样人数的,额,11.42%
平均学习单词数量: 78.92,而背超过平均单词的人数为13351,占总抽样人数的,额,2.19%(注意,真的是2%左右)

那么,我们来看看打卡,成长值,单词数量的,分布吧.

第一个,所有人的打卡数量直方图.

这是所有人的打卡数量直方图

简直惨不忍睹.

第二个,非零用户的打卡数量直方图.

非零用户的打卡数量的直方图

这真是一段悲伤的故事.由于坚持不了几天的用户实在是太多,简直就是反比例函数嘛,导致图像严重畸形.那么,我们只能分段了看用户打卡天数在0_20,20100,100_500,5002000范围的分布图了.

分别如下:

0~20

20~100

100~500

500~2000

其他成长值的各种分布也是如此,在此就不贴出来了.

正如你所看到的,我再来总结一下,

在抽样中,

英语梦死在前0天的有416351人,占总比68.15%;
英语梦死在前1天的有466761人,占总比76.40%;
英语梦死在前2天的有484535人,占总比79.31%;
英语梦死在前5天的有510230人,占总比83.52%;
英语梦死在前10天的有531219人,占总比86.95%;
英语梦死在前20天的有551557人,占总比90.28%;
英语梦死在前50天的有575975人,占总比的94.28%;
英语梦死在前100天的有590700人,占总比96.69%;
英语梦死在前200天的有575975人,占总比98.36%;
英语梦死在前263天的有600875人,占总比98.81%;

你可以大致感受到残酷的现实,几乎没有多少人可以坚持到200天以后.

但是,你还需要注意到的事情是:

抽样的来源是ID为1~1111111之间的60W成员

众所周知的事情是:

早期的用户往往质量相对会高一些.而且,注册的ID越大,证明注册时间距离现在越近.获得200天的几率也就低了不少.

那么,这样的话,英语梦死在200天之前的人数比例还会大上不少.

回到文章开始:

问: 背单词软件有大概多少人注册第一天都没有背完嘛?
答:68.15%

问:有多少人是在坚持或者曾经坚持过背单词呢?(假设100天以上算的上是背单词的话)
答:保守估计,不足3.4%

问:有多少梦想,毁于不能坚持?
答:不妨干了这碗鸡汤,歌唱青春一去不复返.

问:背单词的人们学习的量,是不是符合正太分布呢?
答:不是,简直就是反比例函数.

抛出一个结论:

以绝大部分人努力之低,根本就用不着拼天赋.

赠给你我,共勉.

0x06 整个流程的不足和反思.

扇贝的工程师反爬虫做的还不错,主要有两点:

访问数量超标,封禁IP半个小时.对应的方法就是代理服务器.
cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie.

爬虫框架使用Scrapy,这样就免去了大量的繁琐的线程调度问题,直接写获取信息的逻辑代码,以及存储信息的逻辑代码就好了.

在编写爬虫的过程中,有一些经验:

在爬虫开启以后,由于我暴力的关闭,导致还是有不少的item没有完成请求处理和存储.
我在处理异常的时候忘了应当把失败的item存放放在文件中,方便我第二次补充,这样的话就不会丢失一部分的用户信息了.
代理服务器需要自己写脚本进行测试,否则你可能有很多很多的请求都会超时(毕竟很多代理服务器还是很不靠谱的).

我的分析数据能力并不是很强,仅仅是从CS109里面偷学了一点点,然后使用Seaborn画图,但是这整个过程中还是觉得自己分析不过来,不是写不出代码,而是不清楚使用什么样的数据模型进行分析更好.

0x07 代码

代码放在了Github上面,咳咳,注意,没有把代理服务器放进去.如果你跑一下会发现只能半小时抓取300+页面,这不是我的问题,是你没有把代理服务器填好.代码比较粗糙,还请轻拍.

代码的地址为:

https://github.com/twocucao/DataScience/

仓库里包含了抓取网站的代码和分析数据的IPython Notebook,自己阅读吧.

如果喜欢本文,就点个喜欢吧.

网友评论

97324a58c27c:说的很好啊，我总感觉在这个软件上背了记住了，但是单词出现在别的地方我又不认识了，真是悲催。已经坚持27天，希望能坚持下去。

阿群1986:“正太”分布应为正态分布

无与童比:@阿群1986 噗,我写文章不太注意错别字.(逃)

阿群1986:目录ox03编译器报错:未定义的变量:ox03

_简书:为什么我用代理抓取网页时候很慢呢？
是代理的资源不好还是链接需要很长时间啊？

无与童比: @_简书你在我github的repo的issue上贴出详细异常。然后通知我。

_简书:@无与童比我自己写的测试脚本用这两个模块urllib，socket都可以访问我想爬的网站，可是到scrapy就报错 Could not open CONNECT tunnel。。。请教啊，楼主

无与童比: @_简书应该是代理很慢吧，你写个脚本测试一下

SparkConnie:感觉扇贝不太适合自己，

964d7ec0e68e:楼主~我在微信公众号看到了你的文章~比较感兴趣，想请问2个问题：
1.你的PROXY代理池是自己抓的免费代理，还是收费批量购买的呢？？有没有稳定的获取方式？
2.你是如何发现扇贝的每个人的url档案的地址的呢？能不能分享一下发现的过程？

无与童比:@小麦ifel 可是我估计zhihu这样的网站用代理也不好办呢.不过你这个每分钟访问两次是因为什么吗?没用多线程?还是?

964d7ec0e68e:@无与童比
很喜欢楼主，看得出来你是一个内心细腻、有文艺心的程序员~ (真的特别喜欢你！)，已经关注并且打赏！希望可以看到更多你的原创！
这是我的CSDN博客 http://blog.csdn.net/xiaomai_sysu，可以多多交流！~
关于，第一个问题~请问楼主能不能简单介绍一下抓取的方法/来源呢？因为最近在多线程抓取知乎的人脉关系链条的时候遇到问题（每秒最多访问两次），所以想请教代理的抓取方法和来源！谢谢楼主！！！

无与童比:@小麦ifel 第一,自己抓的免费代理.没有稳定的获取方法.自己抓下来写脚本测试一下代理速度就好.第二.每个人的档案地址是公开的呀,点击几下就发现了(汗).

2af555c8e46e:学长大神

2af555c8e46e:@无与童比阿，我是电气131-金林

无与童比: @aupaup 你是？

质数人生:成为了百分之几的人，更有坚持下去的信心了。

2260938d1d7e:今天是我在扇贝第365天

d890632b201d:理科废出了开头啥都没看懂。。。

无与童比:@Madelaine 噗，还有结论部分呢

alabiubiubiu:大多数死在梦想的第一天，哈哈哈

东成西就的东:很好，再次印证了这是一个多么浮躁的社会。

113b2c363e1e:中文专业的我表示看得懵懵的，但是我居然看完了。看完后感觉作者尤其高大上哈哈哈。为什么我总觉得工科生的世界很神奇而且一直觉得工科生智商很高因为他们说的我都听不懂

无与童比:@113b2c363e1e 他是学日语的。

113b2c363e1e:@无与童比别告诉我我们是同学

无与童比:@113b2c363e1e 你这说话方式好像我的一个同学

b0f376e2c309:啊，只能看懂结论…

sun世华:技术人才能干的事

dc8ba321a4fe:这种方式做研究真是好啊

安凌年:厉害👍

050db649ba6f:顺便问一下作者，你工作用的是C语言吗？oh就要考国二了，还没怎么看……

无与童比: @fumezzz 不用c,用其他语言

050db649ba6f:哦？零点了。看来今天应该是第188天打卡了。我不会死在200天后的！！

向右奔跑:很有意义的抓取分析，赞！

5150384e26f8:看懂了结论

4ce19ee732b5:没看懂，就后面那节，什么东西哟

无与童比: @故我所在额，抓取数据和分析数据的代码呀。

kuohao:是不是产品经理都应该学点python呢？

无与童比: @kuohao 不用吧，我觉得产品经理还是要把经理放在统计估量分析上面，技术活应该交给程序员。

uBravo:天天在背，要死了，卧槽！

花侠:人才啊，人才交个朋友呗

孤独的风i:单词还没背完，准备看篇文章，就看到了这个。加油！！！

堇台:注册了扇贝，每天打卡，坚持总有回报，作者利用的论述方式挺新颖的，但外行估计可能不太能看懂。

无与童比:@堇台谢谢夸奖

小熊猫哄哄:在用英语流利说，每天五分钟，已坚持75天，共勉。

伙焰:坚持就好，不用拼天赋的确很励志！

人潮只是曾来过:最近也在学python爬数据相关的知识，但我是个小白不知道怎么入手，问过相关的人，小白听不懂，不知道有没什么好的建议

无与童比: @人潮只是曾来过爬取网站好像有一本scrape with python,英文的。中文不知晓。

zormin:300天的渣渣的路过......这一假期都没背，明天六级出成绩，我好方😂

zormin: @无与童比过了...

无与童比:@Zorm 应该过了吧

丁FF:今天175天百词斩打卡😊

1ceb5ee8dce9:@丁FF 我也在用hh才下的软件

baecf58c6a57:我居然没看懂，让我静静😶

1ceb5ee8dce9:@蔷薇小镜我也没看懂

fa350adfbc43:明天第200天扇贝打卡了

无与童比:@fa350adfbc43 嘿嘿，不错哦

二进制流浪汉:技术帝，可否告知楼主是如何学习Python,视频还是书籍穷小白想学习，请指条明路！

二进制流浪汉:@无与童比谢谢！

无与童比:@二进制流浪汉汗，我不是什么技术帝，只是之前有其他编程语言基础。高抬了。我学python是直接写工具，查api，google,看书。如果你没有其他语言的基础的话，建议先看视频，如果英语勉强可以，直接去codeacademy刷python教程，然后狠狠的多写点小工具，最后写个大点的东西。学习一个东西，无非就是要找三种类型的资料，一是小白资料，让自己熟悉一下这个东西。二是系统性资料，让自己对这个东西有点系统性的把握。三是cookbook和api文档，有可以随时查找的资料。配和去github上看别人的代码就好了。我只能给出这样的建议，其他的，嗯，坚持，不要轻易否定自己。

倾曼:没看懂

无与童比: @曼珠沙华0806 那，你觉得用什么样的标题会更好一些呢？

倾曼: @无与童比您那些数据分析看的很吃力，我是直接到最后看结果了，可是也只看到一堆数字。我想看的是结果这个软件有没有用，您的题目是背单词软件的真相，我觉得好像关联性不大

无与童比:@曼珠沙华0806 什么地方不懂呢

1c0f129ea857:不久前用了扇贝，今天是坚持的第十二天*^_^*

无与童比: @unique堇加油哦，不要轻易放弃

97324a58c27c:说的很好啊，我总感觉在这个软件上背了记住了，但是单词出现在别的地方我又不认识了，真是悲催。已经坚持27天，希望能坚持下去。
阿群1986:“正太”分布应为正态分布
无与童比:@阿群1986 噗,我写文章不太注意错别字.(逃)
阿群1986:目录ox03编译器报错:未定义的变量:ox03
_简书:为什么我用代理抓取网页时候很慢呢？
是代理的资源不好还是链接需要很长时间啊？
无与童比: @_简书你在我github的repo的issue上贴出详细异常。然后通知我。
_简书:@无与童比我自己写的测试脚本用这两个模块urllib，socket都可以访问我想爬的网站，可是到scrapy就报错 Could not open CONNECT tunnel。。。请教啊，楼主
无与童比: @_简书应该是代理很慢吧，你写个脚本测试一下
SparkConnie:感觉扇贝不太适合自己，
964d7ec0e68e:楼主~我在微信公众号看到了你的文章~比较感兴趣，想请问2个问题：
1.你的PROXY代理池是自己抓的免费代理，还是收费批量购买的呢？？有没有稳定的获取方式？
2.你是如何发现扇贝的每个人的url档案的地址的呢？能不能分享一下发现的过程？
无与童比:@小麦ifel 可是我估计zhihu这样的网站用代理也不好办呢.不过你这个每分钟访问两次是因为什么吗?没用多线程?还是?
964d7ec0e68e:@无与童比
很喜欢楼主，看得出来你是一个内心细腻、有文艺心的程序员~ (真的特别喜欢你！)，已经关注并且打赏！希望可以看到更多你的原创！
这是我的CSDN博客 http://blog.csdn.net/xiaomai_sysu，可以多多交流！~
关于，第一个问题~请问楼主能不能简单介绍一下抓取的方法/来源呢？因为最近在多线程抓取知乎的人脉关系链条的时候遇到问题（每秒最多访问两次），所以想请教代理的抓取方法和来源！谢谢楼主！！！
无与童比:@小麦ifel 第一,自己抓的免费代理.没有稳定的获取方法.自己抓下来写脚本测试一下代理速度就好.第二.每个人的档案地址是公开的呀,点击几下就发现了(汗).
2af555c8e46e:学长大神
2af555c8e46e:@无与童比阿，我是电气131-金林
无与童比: @aupaup 你是？
质数人生:成为了百分之几的人，更有坚持下去的信心了。
2260938d1d7e:今天是我在扇贝第365天
d890632b201d:理科废出了开头啥都没看懂。。。
无与童比:@Madelaine 噗，还有结论部分呢
alabiubiubiu:大多数死在梦想的第一天，哈哈哈
东成西就的东:很好，再次印证了这是一个多么浮躁的社会。
113b2c363e1e:中文专业的我表示看得懵懵的，但是我居然看完了。看完后感觉作者尤其高大上哈哈哈。为什么我总觉得工科生的世界很神奇而且一直觉得工科生智商很高因为他们说的我都听不懂
无与童比:@113b2c363e1e 他是学日语的。
113b2c363e1e:@无与童比别告诉我我们是同学
无与童比:@113b2c363e1e 你这说话方式好像我的一个同学
b0f376e2c309:啊，只能看懂结论…
sun世华:技术人才能干的事
dc8ba321a4fe:这种方式做研究真是好啊
安凌年:厉害👍
050db649ba6f:顺便问一下作者，你工作用的是C语言吗？oh就要考国二了，还没怎么看……
无与童比: @fumezzz 不用c,用其他语言
050db649ba6f:哦？零点了。看来今天应该是第188天打卡了。我不会死在200天后的！！
向右奔跑:很有意义的抓取分析，赞！
5150384e26f8:看懂了结论
4ce19ee732b5:没看懂，就后面那节，什么东西哟
无与童比: @故我所在额，抓取数据和分析数据的代码呀。
kuohao:是不是产品经理都应该学点python呢？
无与童比: @kuohao 不用吧，我觉得产品经理还是要把经理放在统计估量分析上面，技术活应该交给程序员。
uBravo:天天在背，要死了，卧槽！
花侠:人才啊，人才交个朋友呗
孤独的风i:单词还没背完，准备看篇文章，就看到了这个。加油！！！
堇台:注册了扇贝，每天打卡，坚持总有回报，作者利用的论述方式挺新颖的，但外行估计可能不太能看懂。
无与童比:@堇台谢谢夸奖
小熊猫哄哄:在用英语流利说，每天五分钟，已坚持75天，共勉。
伙焰:坚持就好，不用拼天赋的确很励志！
人潮只是曾来过:最近也在学python爬数据相关的知识，但我是个小白不知道怎么入手，问过相关的人，小白听不懂，不知道有没什么好的建议
无与童比: @人潮只是曾来过爬取网站好像有一本scrape with python,英文的。中文不知晓。
zormin:300天的渣渣的路过......这一假期都没背，明天六级出成绩，我好方😂
zormin: @无与童比过了...
无与童比:@Zorm 应该过了吧
丁FF:今天175天百词斩打卡😊
1ceb5ee8dce9:@丁FF 我也在用hh才下的软件
baecf58c6a57:我居然没看懂，让我静静😶
1ceb5ee8dce9:@蔷薇小镜我也没看懂
fa350adfbc43:明天第200天扇贝打卡了
无与童比:@fa350adfbc43 嘿嘿，不错哦
二进制流浪汉:技术帝，可否告知楼主是如何学习Python,视频还是书籍穷小白想学习，请指条明路！
二进制流浪汉:@无与童比谢谢！
无与童比:@二进制流浪汉汗，我不是什么技术帝，只是之前有其他编程语言基础。高抬了。我学python是直接写工具，查api，google,看书。如果你没有其他语言的基础的话，建议先看视频，如果英语勉强可以，直接去codeacademy刷python教程，然后狠狠的多写点小工具，最后写个大点的东西。学习一个东西，无非就是要找三种类型的资料，一是小白资料，让自己熟悉一下这个东西。二是系统性资料，让自己对这个东西有点系统性的把握。三是cookbook和api文档，有可以随时查找的资料。配和去github上看别人的代码就好了。我只能给出这样的建议，其他的，嗯，坚持，不要轻易否定自己。
倾曼:没看懂
无与童比: @曼珠沙华0806 那，你觉得用什么样的标题会更好一些呢？
倾曼: @无与童比您那些数据分析看的很吃力，我是直接到最后看结果了，可是也只看到一堆数字。我想看的是结果这个软件有没有用，您的题目是背单词软件的真相，我觉得好像关联性不大
无与童比:@曼珠沙华0806 什么地方不懂呢
1c0f129ea857:不久前用了扇贝，今天是坚持的第十二天*^_^*
无与童比: @unique堇加油哦，不要轻易放弃

关于背单词软件,你不知道的惊人真相

0x00 前言

0x01 问题的提出和任务的分解

0x02 任务一,信息爬取,清理和存储

0x03 任务二,清理和存储

0x04 任务三,分析

0x05 任务三,结论

0x06 整个流程的不足和反思.

0x07 代码

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

程序猿的自我修养

有用

python爬虫

python

Python语言与信息数据获取和机器学习

首页投稿（暂停使用，暂停投稿）

编程学习

外语学习实践