美文网首页程序猿的自我修养有用python爬虫
关于背单词软件,你不知道的惊人真相

关于背单词软件,你不知道的惊人真相

作者: 无与童比 | 来源:发表于2016-02-24 20:39 被阅读14266次

    0x00 前言

    • 你想知道背单词软件有大概多少人注册第一天都没有背完嘛?
    • 你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛?

    别急,Python程序员用数据给你说话.

    文章目录如下:

    • 0x00 前言
    • 0x01 问题的提出和任务的分解
    • 0x02 任务一,信息爬取
    • ox03 任务二,清理和存储
    • 0x04 任务三,分析
    • 0x05 任务四,结论
    • 0x06 整个流程的不足和反思.
    • 0x07 代码.

    0x01 问题的提出和任务的分解

    前两天,就在一个雷电交加的夜晚,我躺在床上,草草的看了一篇英文文章,突然想到一个非常有意思的问题:

    是不是大部分的人做事真的不能坚持呢?比如,背单词.

    好,那我就看看到底有多少人是坚持不下来的?

    那么,我们的问题就变成了这样子:

    • 有多少人是在坚持或者曾经坚持过背单词呢?(假设100天以上算的上是背单词的话)
    • 有多少梦想,毁于不能坚持?
    • 背单词的人们学习的量,是不是符合正太分布呢?

    于是我选中了业内的标杆扇贝软件作为分析的对象.抽取其中的大约1/30的用户的公开数据,也就是游客用户都可以看得到的数据,进行抽样调查.

    调查的具体内容如下:

    • 打卡最高/成长值最高/学习单词数量最高
    • 平均每个人打卡次数/成长值/学习单词数量
    • 打卡/成长值/学习单词数量的分布(也就是已经坚持了多少天了)

    那么,我的任务也就可以分解如下:

    • 爬取数据
      • 使用Python2的Scrapy进行爬站
    • 清理数据
      • sql语句和pandas运算
    • 分析数据
      • pandas + seaborn + ipython book
    • 得出结论

    0x02 任务一,信息爬取,清理和存储

    每个用户的信息都在这里:

    http://www.shanbay.com/bdc/review/progress/2

    使用beautifulsoup4 进行解析即可.其他部分参考代码.

    扇贝的工程师反爬虫做的还不错,主要有两点:

    • 访问数量超标,封禁IP半个小时.对应的方法就是代理服务器.(代码中已经删除代理服务器,所以,如果你运行不了代码,那你应该知道怎么做了.)
    • cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie.

    0x03 任务二,清理和存储

    对于数据库,使用Postgresql存储就好了.也没有什么大问题.参考代码.有问题在评论下面问.

    通常情况下在存入数据库的时候需要进行数据的净化,不处理也没有什么大问题.

    0x04 任务三,分析

    分析阶段,使用IPython notebook. 通常情况下,我们使用的是Anaconda里面的Python3版本 .可以到这里下载,注意,mac和ubuntu下载的是命令行版本.

    https://www.continuum.io/downloads

    安装完毕以后,重启终端.环境变量生效.

    #直接安装seaborn
    pip install seaborn
    

    切换到指定目录然后敲入命令ipython notebook打开浏览器进行编辑.

    至于怎么使用,请看代码.

    0x05 任务三,结论

    在这里省去部分的分析过程直接贴出结论.

    总共抓取1111111张网页,成功获取610888个用户的信息.

    于是得出结论如下:

    扇贝之最:

    • 最高打卡天数: chainyu 1830天
    • 最高成长值: Lerystal 成长值 28767
    • 最高单词数量: chenmaoboss 单词量 38313

    平均到每一个人身上

    • 平均每人打卡天数: 14.18,而超过成长平均值的人数为71342,占总抽样人数的,额,11.69%
    • 平均成长值: 121.79,而超过平均成长的人数为13351,占总抽样人数的,额,11.42%
    • 平均学习单词数量: 78.92,而背超过平均单词的人数为13351,占总抽样人数的,额,2.19%(注意,真的是2%左右)

    那么,我们来看看打卡,成长值,单词数量的,分布吧.

    第一个,所有人的打卡数量直方图.

    这是所有人的打卡数量直方图

    简直惨不忍睹.

    第二个,非零用户的打卡数量直方图.

    非零用户的打卡数量的直方图

    这真是一段悲伤的故事.由于坚持不了几天的用户实在是太多,简直就是反比例函数嘛,导致图像严重畸形.那么,我们只能分段了看用户打卡天数在020,20100,100500,5002000范围的分布图了.

    分别如下:

    0~20 20~100 100~500 500~2000

    其他成长值的各种分布也是如此,在此就不贴出来了.

    正如你所看到的,我再来总结一下,

    在抽样中,

    1. 英语梦死在前0天的有416351人,占总比68.15%;
    2. 英语梦死在前1天的有466761人,占总比76.40%;
    3. 英语梦死在前2天的有484535人,占总比79.31%;
    4. 英语梦死在前5天的有510230人,占总比83.52%;
    5. 英语梦死在前10天的有531219人,占总比86.95%;
    6. 英语梦死在前20天的有551557人,占总比90.28%;
    7. 英语梦死在前50天的有575975人,占总比的94.28%;
    8. 英语梦死在前100天的有590700人,占总比96.69%;
    9. 英语梦死在前200天的有575975人,占总比98.36%;
    10. 英语梦死在前263天的有600875人,占总比98.81%;

    你可以大致感受到残酷的现实,几乎没有多少人可以坚持到200天以后.

    但是,你还需要注意到的事情是:

    抽样的来源是ID为1~1111111之间的60W成员

    众所周知的事情是:

    • 早期的用户往往质量相对会高一些.而且,注册的ID越大,证明注册时间距离现在越近.获得200天的几率也就低了不少.

    那么,这样的话,英语梦死在200天之前的人数比例还会大上不少.

    回到文章开始:

    问: 背单词软件有大概多少人注册第一天都没有背完嘛?
    答:68.15%

    问:有多少人是在坚持或者曾经坚持过背单词呢?(假设100天以上算的上是背单词的话)
    答:保守估计,不足3.4%

    问:有多少梦想,毁于不能坚持?
    答:不妨干了这碗鸡汤,歌唱青春一去不复返.

    问:背单词的人们学习的量,是不是符合正太分布呢?
    答:不是,简直就是反比例函数.

    抛出一个结论:

    以绝大部分人努力之低,根本就用不着拼天赋.

    赠给你我,共勉.

    0x06 整个流程的不足和反思.

    扇贝的工程师反爬虫做的还不错,主要有两点:

    • 访问数量超标,封禁IP半个小时.对应的方法就是代理服务器.
    • cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie.

    爬虫框架使用Scrapy,这样就免去了大量的繁琐的线程调度问题,直接写获取信息的逻辑代码,以及存储信息的逻辑代码就好了.

    在编写爬虫的过程中,有一些经验:

    • 在爬虫开启以后,由于我暴力的关闭,导致还是有不少的item没有完成请求处理和存储.
    • 我在处理异常的时候忘了应当把失败的item存放放在文件中,方便我第二次补充,这样的话就不会丢失一部分的用户信息了.
    • 代理服务器需要自己写脚本进行测试,否则你可能有很多很多的请求都会超时(毕竟很多代理服务器还是很不靠谱的).

    我的分析数据能力并不是很强,仅仅是从CS109里面偷学了一点点,然后使用Seaborn画图,但是这整个过程中还是觉得自己分析不过来,不是写不出代码,而是不清楚使用什么样的数据模型进行分析更好.

    0x07 代码

    代码放在了Github上面,咳咳,注意,没有把代理服务器放进去.如果你跑一下会发现只能半小时抓取300+页面,这不是我的问题,是你没有把代理服务器填好.代码比较粗糙,还请轻拍.

    代码的地址为:

    https://github.com/twocucao/DataScience/

    仓库里包含了抓取网站的代码和分析数据的IPython Notebook,自己阅读吧.

    如果喜欢本文,就点个喜欢吧.

    相关文章

      网友评论

      • 97324a58c27c:说的很好啊,我总感觉在这个软件上背了记住了,但是单词出现在别的地方我又不认识了,真是悲催。已经坚持27天,希望能坚持下去。
      • 阿群1986:“正太”分布应为正态分布
        无与童比:@阿群1986 噗,我写文章不太注意错别字.(逃)
        阿群1986:目录ox03编译器报错:未定义的变量:ox03
      • _简书:为什么我用代理抓取网页时候很慢呢?
        是代理的资源不好还是链接需要很长时间啊?
        无与童比: @_简书 你在我github的repo的issue上贴出详细异常。然后通知我。
        _简书:@无与童比 我自己写的测试脚本用这两个模块urllib,socket都可以访问我想爬的网站,可是到scrapy就报错 Could not open CONNECT tunnel。。。请教啊,楼主
        无与童比: @_简书 应该是代理很慢吧,你写个脚本测试一下
      • SparkConnie:感觉扇贝不太适合自己,
      • 964d7ec0e68e:楼主~我在微信公众号看到了你的文章~比较感兴趣,想请问2个问题:
        1.你的PROXY代理池是自己抓的免费代理,还是收费批量购买的呢??有没有稳定的获取方式?
        2.你是如何发现扇贝的每个人的url档案的地址的呢?能不能分享一下发现的过程?
        无与童比:@小麦ifel 可是我估计zhihu这样的网站用代理也不好办呢.不过你这个每分钟访问两次是因为什么吗?没用多线程?还是?
        964d7ec0e68e:@无与童比
        很喜欢楼主,看得出来你是一个内心细腻、有文艺心的程序员~ (真的特别喜欢你!),已经关注并且打赏!希望可以看到更多你的原创!
        这是我的CSDN博客 http://blog.csdn.net/xiaomai_sysu,可以多多交流!~
        关于,第一个问题~请问楼主能不能简单介绍一下抓取的方法/来源呢?因为最近在多线程抓取知乎的人脉关系链条的时候遇到问题(每秒最多访问两次),所以想请教代理的抓取方法和来源!谢谢楼主!!! :blush:
        无与童比:@小麦ifel 第一,自己抓的免费代理.没有稳定的获取方法.自己抓下来写脚本测试一下代理速度就好.第二.每个人的档案地址是公开的呀,点击几下就发现了(汗).
      • 2af555c8e46e:学长大神
        2af555c8e46e:@无与童比 阿,我是电气131-金林
        无与童比: @aupaup 你是?
      • 质数人生:成为了百分之几的人,更有坚持下去的信心了。
      • 2260938d1d7e:今天是我在扇贝第365天
      • d890632b201d:理科废出了开头啥都没看懂。。。
        无与童比:@Madelaine 噗,还有结论部分呢
      • alabiubiubiu:大多数死在梦想的第一天,哈哈哈
      • 东成西就的东:很好,再次印证了这是一个多么浮躁的社会。
      • 113b2c363e1e:中文专业的我表示看得懵懵的,但是我居然看完了。看完后感觉作者尤其高大上哈哈哈。为什么我总觉得工科生的世界很神奇而且一直觉得工科生智商很高因为他们说的我都听不懂
        无与童比:@113b2c363e1e 他是学日语的。
        113b2c363e1e:@无与童比 别告诉我我们是同学
        无与童比:@113b2c363e1e 你这说话方式好像我的一个同学
      • b0f376e2c309:啊,只能看懂结论…
      • sun世华:技术人才能干的事
      • dc8ba321a4fe:这种方式做研究真是好啊
      • 安凌年:厉害👍
      • 050db649ba6f:顺便问一下作者,你工作用的是C语言吗?oh就要考国二了,还没怎么看……
        无与童比: @fumezzz 不用c,用其他语言
      • 050db649ba6f:哦?零点了。看来今天应该是第188天打卡了。我不会死在200天后的!!
      • 向右奔跑:很有意义的抓取分析,赞!
      • 5150384e26f8:看懂了结论
      • 4ce19ee732b5:没看懂,就后面那节,什么东西哟
        无与童比: @故我所在 额,抓取数据和分析数据的代码呀。
      • kuohao:是不是产品经理都应该学点python呢?
        无与童比: @kuohao 不用吧,我觉得产品经理还是要把经理放在统计估量分析上面,技术活应该交给程序员。
      • uBravo:天天在背,要死了,卧槽!
      • 花侠:人才啊,人才交个朋友呗
      • 孤独的风i:单词还没背完,准备看篇文章,就看到了这个。加油!!!:flushed:
      • 堇台:注册了扇贝,每天打卡,坚持总有回报,作者利用的论述方式挺新颖的,但外行估计可能不太能看懂。
        无与童比:@堇台 谢谢夸奖
      • 小熊猫哄哄:在用英语流利说,每天五分钟,已坚持75天,共勉。
      • 伙焰:坚持就好,不用拼天赋的确很励志!
      • 人潮只是曾来过:最近也在学python爬数据相关的知识,但我是个小白不知道怎么入手,问过相关的人,小白听不懂,不知道有没什么好的建议
        无与童比: @人潮只是曾来过 爬取网站好像有一本scrape with python,英文的。中文不知晓。
      • zormin:300天的渣渣的路过......这一假期都没背,明天六级出成绩,我好方😂
        zormin: @无与童比 过了...
        无与童比:@Zorm 应该过了吧
      • 丁FF:今天175天百词斩打卡😊
        1ceb5ee8dce9:@丁FF 我也在用hh才下的软件
      • baecf58c6a57:我居然没看懂,让我静静😶
        1ceb5ee8dce9:@蔷薇小镜 我也没看懂
      • fa350adfbc43:明天第200天扇贝打卡了
        无与童比:@fa350adfbc43 嘿嘿,不错哦
      • 二进制流浪汉:技术帝,可否告知楼主是如何学习Python,视频还是书籍穷小白想学习,请指条明路!
        二进制流浪汉:@无与童比 谢谢!
        无与童比:@二进制流浪汉 汗,我不是什么技术帝,只是之前有其他编程语言基础。高抬了。我学python是直接写工具,查api,google,看书。 如果你没有其他语言的基础的话,建议先看视频,如果英语勉强可以,直接去codeacademy刷python教程,然后狠狠的多写点小工具,最后写个大点的东西。学习一个东西,无非就是要找三种类型的资料,一是小白资料,让自己熟悉一下这个东西。二是系统性资料,让自己对这个东西有点系统性的把握。三是cookbook和api文档,有可以随时查找的资料。配和去github上看别人的代码就好了。我只能给出这样的建议,其他的,嗯,坚持,不要轻易否定自己。
      • 倾曼:没看懂
        无与童比: @曼珠沙华0806 那,你觉得用什么样的标题会更好一些呢?
        倾曼: @无与童比 您那些数据分析看的很吃力,我是直接到最后看结果了,可是也只看到一堆数字。我想看的是结果这个软件有没有用,您的题目是背单词软件的真相,我觉得好像关联性不大
        无与童比:@曼珠沙华0806 什么地方不懂呢
      • 1c0f129ea857:不久前用了扇贝,今天是坚持的第十二天*^_^*
        无与童比: @unique堇 加油哦,不要轻易放弃

      本文标题:关于背单词软件,你不知道的惊人真相

      本文链接:https://www.haomeiwen.com/subject/snrikttx.html