《简单统计学》:被大数据裹挟的现代人，如何识破那些愚蠢的理论

作者: 梅廷芳先生 | 来源:发表于2019-07-01 23:42 被阅读0次

慢慢来，比较快

如果生活中遇到了问题，你会怎么办？

我想大多数人都会去百度一下，所谓内事不决问老婆，外事不决问百度。

但是，百度得来的答案层次不齐，有些更是具有误导性，2017年魏则西事件就是明证。

对此，有人会去专门的问答平台找答案，例如知乎和今日头条的悟空问答，这些平台的答案要比直接百度出来的靠谱得多。

但问答平台通常都是二手知识，有些答案事实而非，也缺乏专业性和科学性。

为了解决这个问题，有人会直接阅读论文，因为论文具有科学性和真实性。

首先论文的作者，是具有一定造诣的专业人士；其次，论文有大量的数据作为基础；最后，论文的发表需要杂志社进行层层审核（同行评议），综合下来，论文的内容是最值得信赖的。

直接百度答案层次不齐，问答平台事实而非，那么经过同行评议以后的专业论文，就能够完全相信、一劳永逸了吗？

今天我想和大家聊的这本《简单统计学》，探讨的就是这个问题。

简单统计学

它的作者是耶鲁大学的统计学博士加里▪史密斯，他认为有些人误用了统计学，得出了错误的结论；有些则故意错误使用统计学，得出了自己想要的结论，而这些结论都偏离事实。

01 故意用错统计学

在美国和英国这样的发达国家，疫苗的接种率很低，远远没有一些小国、穷国的接种率高，例如穷国斯里兰卡的接种率就要比美国和英国高。

现代医学发展到今天，我们都知道，接种疫苗是预防疾病最有效的方式之一，天花之所以能被消灭，就是因为疫苗的功劳，而HIV之所以猖獗，最根本原因就在于目前还没有HIV疫苗。

那英国和美国的家长，为什么不愿意让自家的孩子接种疫苗呢？他们难道不知道接种疫苗的好处吗？

要查找原因，还得从1998年的一篇文章开始说起。

那一年，英国医生韦克菲尔德和他的合作者一起，在著名的医学杂志《柳叶刀》上发表了一篇论文，论文的结论是：12名正常儿童在接种麻疹、腮腺炎和风疹疫苗以后，患上了自闭症。

文章一出来，舆论顿时哗然，很多家长非常焦虑，毕竟自闭症比感染麻腮风的危害要大。

于是，他们停止了正常的接种程序，不再给孩子接种疫苗。

事情并没有完，有人试图复制韦克菲尔德的研究结果，但不论怎么努力，始终得不到接种麻疹、腮腺炎和风疹疫苗后患上了自闭症的结论。

为此，一位名为赖恩▪迪尔的记者开展了调查，调查的结果是，韦克菲尔德使用的数据与英国官方的数据不符，并且韦克菲尔德声称患上自闭症的12名儿童中，只有1人确诊患有自闭症，其他11人都是健康的。

也就是说，韦克菲尔德使用了错误的数据，最终得出错误的结论。

那么他为什么要这样做呢？

赖恩▪迪尔进一步调查发现，韦克菲尔德计划推出替代性疫苗，他认为，新疫苗才是安全的，与此同时，韦克菲尔德也与律师合作，希望对疫苗生产商提起诉讼，从而获得丰厚的回报。

2010年，《柳叶刀》杂志撤销了韦克菲尔德的文章，同时英国医学会吊销了他的行医执照。

真相得以大白，但影响却并没有就此停止，因为这篇文章的缘故，英国的麻疹接种率从92%跌至不到80%，麻疹并也从1998年的56例，增加到2008年的1348例。

02 万恶的0.05

对于一名科研工作者来说，最喜欢的数字是0.05，而最害怕的数字可能也是0.05。

对应0.05的是一个具有魔幻性的统计学术语——显著性检验，简单来理解，显著性检验就是看两组不同的数据，是否存在差异。

例如，小王为了减肥，服用了某公司的减肥产品，服用减肥产品前后小王的体重见下表。

小王减肥表

乍一看，减肥前平均体重是56千克，减肥后平均体重是55千克，减肥成功，减肥产品有效。

这个时候，统计学家跳出来说，不能这样简单粗暴的比，因为在称重的时候会产生误差（就是真实值和称重值之间的差），这1千克，到底是减肥产品的作用，还是因为称重误差带来的减轻，谁也不知道，必须经过统计学计算才行。

于是，统计学家重新计算，得出一个p值，如果p值小于0.05，那么小王因为称重误差引起的减轻是小概率事件。

也就是说，如果p值小于0.05，那么小王的体重减轻，是因为减肥产品的作用，不是称重误差带来的，说明减肥成功，具有显著性效果。

如果p值大于0.05（大概率事件），那么小王的体重减轻，是因为称重误差带来的，并不是减肥产品的作用，减肥失败，没有显著性效果。

补充一下概率论知识，如果一件事情出现的可能性大于95%（0.95），就是大概率事件，如果小于5%（0.05），就是小概率事件。

经过计算，小王减肥前后体重的p值是0.386，大于0.05，没有显著性差异，小王的体重减轻，是因为称重误差带来的，她减肥失败，没有显著性效果。

小王只能哭晕在厕所。

正因为有了显著性检验（0.05），科研人员开始大杀四方。

例如，用淀粉来治疗疼痛，通过和原来的止痛药进行显著性检验，发现p值小于0.05。

结论是：在治疗疼痛中，淀粉的作用比原来的止痛药明显，于是制药公司开始疯狂销售淀粉。毕竟实验科学严谨，还有数据支持。

每年，制药公司都会对成百上千的新药进行显著性检验，即便实验设计良好，还是会有一些毫无效果的药物，表现出具有统计显著性效果。

而这可以给制药公司带来源源不断的利润。

与之相反的例子是，美国对健康男性实施前列腺癌的普查，在花费了大量的人力物力和财力以后发现，这项普查毫无意义。

普查前后进行显著性检验，p值大于0.05，没有显著性差异。

《简单的统计学》说出了这样一个事实。

一位名叫约翰▪约安尼季斯的医生，针对45项备受尊敬的医学研究发现，只有20项被人用更大规模的样本进行了检验，复制出当时的研究结果，复制成功的比例是44%。

这还是备受尊敬的研究成果，如果是一般的研究成果，能够复制的比例只会更低。

为此，他还写了一篇名为“为什么大多数得到发表的研究结果都是错误的”的文章。

03 如何识破郑重其事的胡诌乱道

在《简单统计学》中，给出了两个良方来识破郑重其事的胡诌乱道,他们是常识和新数据。

有人研究认为，如果出生在“火年”，那么就容易死于心脏病；

如果一个人姓名的首字母缩写有积极的意义，那么寿命将延长3-5年；

凌乱的房间会导致种族主义倾向……

这些看上去言之凿凿的理论，其实已经违背了常理，这就需要保持足够的警惕，加里▪史密斯说，很多研究人员用科学的方法，严肃的语气提出了一些愚蠢的理论。

如果你听到一个新理论觉得非常不可思议，违反了你的常识，那么就需要警惕了，即便拿出一堆眼花缭乱的数据，也要慎重对待，因为颠覆不同寻常的常识，需要不同寻常的证据。

除了常识之外，还有一个良方是新数据。

我在摸麻将牌的时候，如果用左手的无名指和拇指摸到了一张东风，看到这样的结果，于是我得出了结论：如果我用左手的无名指和拇指摸牌，那么，我就可以摸到东风。

这并不是空穴来风，而是有数据支持，我之前确实用这样怪异的姿势摸到了东风。

很显然，这样的理论不仅违背常识，而且还很愚蠢，一副麻将只有4张东风，全部摸完以后是不可能再摸到东风的。

这个时候，最好的办法就是能够用新数据进行验证，复制实验结果。例如可以用同样的姿势再摸一遍，看看结论是否真的如前所说。

这个办法就是用新数据检验理论，得到的结论可能让人失望，这并不意外。

摸麻将牌的谬论，我们很容易就识别出来，但如果换成另外一种我们不认识的新事物，再加上一些专业的统计学术语，就容易受到迷惑，应该怎么办呢？

这时候，就要求我们对一切看上去貌似严谨的数据保持警惕，不可盲目信任，然后找其他资料进行比对。

如果，有人用更大规模的样本复制出相同的结果，那么这个理论十有八九是正确的，可以接受。

但是，如果没有人复制出相同的结果，甚至是得出了相反的结论，那么这个理论大概是错误的，需要远离。

这是一个大数据的时代，言必称大数据，大数据从来没有像今天这样得到过推崇和信任。

诚然，大数据可以为我们做出更明智的决策，发现重要的理论。

但是，有时候大数据也会得出一些荒谬的怪异的理论，而学习一点统计学知识，则可以识别这种愚蠢而又荒诞的理论。

正如著名经济学家科斯说的，如果你对数据拷打足够长的时间，它一定会招供。

网友评论

工作生活

本文标题：《简单统计学》:被大数据裹挟的现代人，如何识破那些愚蠢的理论

本文链接：https://www.haomeiwen.com/subject/vqvocctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《简单统计学》:被大数据裹挟的现代人，如何识破那些愚蠢的理论

01 故意用错统计学

02 万恶的0.05

03 如何识破郑重其事的胡诌乱道

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

工作生活