大数据时代的陷阱，你掉过几回

作者: 思南说 | 来源:发表于2017-10-22 16:59 被阅读481次

示意图来自 wikipedia

大家都认为应该加强弹孔密集的机翼、机尾区的材料强度，但 Wald 却提出，真正值得在意的是没留下什么弹孔的发动机和机身区域——因为被射中那儿的飞机当下就挂了，根本就没法飞回来供研究员检查！
.
这是一个非常生动的幸存者偏差真实例证，也证明了无回应样本可能带来巨大误导。

这也是绝大多数人都会忽视的一项数据谬误。比如，我们总会把商品评论、网站电影评分当成有代表性的大众喜好，但实际上，对一部电影抱有越极端（超赞or烂到家了）看法的观众越可能有动力去网站评分、留影评，还有相当多的人不论好坏从不打分，也有少部分积极分子次次都要评分，而那些懒得去打分的观众就是无回应的样本——他们的真实看法可能会扭转现有的结论。

.

数据没问题，采样也没大问题，但数据本身无法推导出你以为的结论

「Numbers never lie, but liars use numbers.」

医药界的实验报告往往会在一堆图表后甩出“统计证明，某某新药可以降低3%患二型糖尿病的几率”的结论，媒体又会紧跟其后用充满冲击力的标题，将整篇论文化为一句不超10个字话传达给大众。不谈在传播的过程中可能产生的种种夸张失实，仅看医学论文本身，就足以体验到数据的陷阱。

手握数据的人总是告诉我们，降低了15%，增加了20%，普及率超过60%——可是有多少人知道这些百分数到底意味着什么？

.

比如，限枪在美国一直是个热议的话题，拥枪派喜欢强调的这么一个统计数据：在美国，任一年里，只有 0.2% 的私人武器用于暴力犯罪——听起来真的很少！

可是如果再查一下美国民间枪支估计数目：300000000（别数啦，是3亿），做个简单乘法，

300,000,000 * 0.002 = 600,000!

美国每年有60万私人枪支出现在暴力犯罪中——现在，还会觉得 0.2% 是个特别小的数字吗？

.
记住：当你不知道真实数据是什么时，百分数很难说明什么。
.

数据、采样、结论看起来都没问题，但实验不符合基本科学逻辑

近几百年的科学发展留给人类最宝贵的财富是什么？不是蒸汽机电力互联网，而是科学研究方法论，因为这是所有的发明创新的起点。科学方法论的基本套路是：

观察现象 -> 提出假设 -> 设计实验 - 进行实验 - 验证或反驳假设 - 得出结论

这套方法论很多人在中学生物课上就接触到了，但这看起来清晰简单的科学逻辑却并不易掌握——不少受过高等教育的人其实也不理解科学方法论。

1992年，几个瑞典科学家在一项长达25年的跟踪实验中得出这样的结论：住在高压电线附近会增加四倍儿童患白血病的概率。这几位科学家是如何得出这个结论的呢？来看一下他们的实验设计：

找到生活在距高压电线300米内的所有居民，在接下来25年的时间里跟踪调查这些人，在列举了800种疾病的表格里逐年记录下每类病患的人数。

最后，科学家发现，与全国平均水平相比，这些住在高压电线附近的人群在儿童白血病的患病率上高出平均水平四倍！因此这些研究人员向政府呼吁重视这项严峻的健康问题。

.

但是，他们的研究从一开始就犯了一个错，导致这个花费25年得出的结论毫无意义。

你能找到他们的错误吗？

如果你不能很快就发现错误的话，说明你其实并不理解科学方法论是怎么回事（很有可能也不太理解概率论）。

.

这项高压线影响健康的试验，犯了颠倒科学实验步骤的错误。

正确的科学实验步骤是先「提出假设」，再「设计、进行试验」，接着「验证或反驳假设」。而这项研究呢，却是跳过了「提出假设」的步骤，直接拿出一个包含了800项疾病的列表，企图在其中找到一项可能出现反常数据的选项。这就好比拿一大把飞镖随意扔向一面白墙，最后在飞镖位置最集中的几个地方自己画上靶——

然后向没看到全部过程的人宣称自己是神枪手 :P

这类根据结果反提假设的现象被称为 Texas Sharpshooter Fallacy 德州神枪手谬误

.

小结

人脑并非为理解数字啦统计啦这些东西而设计的，这点在旧博文《计算机科学家的脑子和普通人不一样》中已有所阐述。

.
人脑理解统计数据的难度至少存在三层：

第一，数据造假非常容易，但作为普通读者分辨起来却无比困难；

第二，就算数据是真实可靠的，还可能在采样过程中、分析理解数据时、设计试验中犯各种有心或无意的错误；

第三，就算所有技术性问题都被消灭了，面对真实可靠的数据与合理权威的推论，接收者却不一定能客观地分析乃至接受。因为，我们倾向于相信自己本来就相信的事物（confirmation bias）。

否则，为什么世界各地还有不少人认为地球是平的呢。
.

谢谢你的阅读！

网友评论

本文标题：大数据时代的陷阱，你掉过几回

本文链接：https://www.haomeiwen.com/subject/zdxnuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据时代的陷阱，你掉过几回

数据没问题，采样也没大问题，但数据本身无法推导出你以为的结论

数据、采样、结论看起来都没问题，但实验不符合基本科学逻辑

小结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

程序员

@IT·互联网

首页投稿（暂停使用，暂停投稿）