过年回家,事情较多,基本没有时间静下心来学习。家中电脑实在是有点落后,不足以让我实践学习完成总结。思前想后,记一篇我最早学习数据分析时的了解的数据欺骗来充当作业。我在一开始学习数据分析的时候读了一本叫《简单统计学》的书,此书通过10多个生动鲜活的故事,层层揭露了数据背后的欺骗和陷阱。下面就是我觉得比较有意思的故事分享给大家。
故事一:幸存者假设
二战期间,英国皇家空军计划在飞机上安装厚钢板,以帮助它们抵抗德国战斗机和陆基高射炮的攻击。他们调查并收集了飞机上子弹孔的位置,发现大部分都位于机翼和飞机尾部,而在驾驶舱、发动机和油箱的位置则非常少。于是决定把钢板装在机翼跟飞机尾部。
乍一看,这样一个完整根据数据得到的修改结论。有理有据,好像令人信服。但实际情况呢这个结论是错误的,因为它使用的数据全部基于在战斗中成功返回的飞机,那些在驾驶舱、发动机、油箱等位置被击中的飞机全部都无法存活下来。这就是数据的"幸存者偏差"造成的错误结论。不仅如此现在的互联网营销也经常的使用幸存者假设来欺骗消费者。聪明的消费者,应该明白幸存者偏差产生的原因,以及对统计结果可能造成的扭曲。我们应该以科学严谨的态度看待“幸存者偏差”这个问题,尽量不让这样的统计花招迷惑了自己的双眼,不让自己成为这些销售技巧忽悠的对象。
故事二 : 抽样问题的样本选择
1936年,民主党人艾尔弗雷德兰登与时任总统富兰克林·罗斯福竞选下届总统。《文学文摘》这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”,是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中,成功地预测总统宝座的归属。
1936年,《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查,不同于前几次的调查,这次调查把范围拓展得更广。当时大家都相信,数据集合越大,预测结果越准确。《文学文摘》计划寄出1000万份调查问卷,覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执,在统计完成以后,《文学文摘》宣布,艾尔弗雷德?兰登将会以55比41的优势,击败富兰克林·罗斯福赢得大选,另外4%的选民则会零散地投给第三候选人。
然而,真实的选举结果与《文学文摘》的预测大相径庭:罗斯福以61 比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是,新民意调查的开创者乔治·盖洛普,仅仅通过一场规模小得多的问卷——一个3000人的问卷调查,得出了准确得多的预测结果:罗斯福将稳操胜券。盖洛普的3000人“小”抽样,居然挑翻了《文学文摘》240万的“大”调查,实在让专家学者和社会大众跌破眼镜。《文学文摘》的失败在于,取样存在严重偏差,它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少,但它的订户多集中在中上阶层,样本从一开始就是有偏差的(sample bias),因此,推断的结果不准,就不足为奇了。而且民主党人艾尔弗雷德?兰登的支持者,似乎更乐于寄回问卷结果,这使得调查的错误更进了一步。这两种偏差的结合,注定了《读者文摘》调查的失败。这个事件大家应该都有所耳闻,统计学上会将这个问体归结到选择偏倚上。如过单是这一次的原因是可以归结到这个问题上。但大家注意到没有,在预测失败这次前面有4次成功的预测,这四次给《文学文摘》预测正确给,第五次的预测带来了什么?我们无法知道他们当时的心里状态。也许当时他们被他们自己骗了
我始终相信一句话:数字不会骗人,但人会。数字没有人的定义什么都不是。
网友评论