《简单统计学》，擦亮辨识伪数据的火眼金睛

作者: 恰恰天蓝 | 来源:发表于2019-03-03 10:20 被阅读19次

《简单统计学》，擦亮辨识伪数据的火眼金睛
统计学防骗手册——《统计数据会说谎》
bitcoin源码-1-获取密钥对
在统计学的坑里趴了两周
机器学习的“惯性思维”
统计
Apriori算法
《统计学习方法-第2版》第1章概论
《统计学习方法》笔记（一）：统计学习方法概论
《统计学习方法》-第一章（1）

文/恰恰天蓝

本书于我： ★ ★ ★

关键词：数据、统计、谎言

1

来做个测试，请你判断合理性：

- 吃西兰花，可以预防癌症。

- 上半年出生的人，更容易成功。

- 数字6和8，能给人们带来好运。

- 本命年要穿红衣服，可消灾。

- 允许堕胎可以降低犯罪率（美国）。

这些我们身边能举出来的判断，有几个合理的呢？以上，一个没有；对，就是一个没有。

这些，在本书你可得到答案。

同时，它戳穿了久负盛名的《魔鬼经济学》、《追求卓越》等超级畅销书的弥天大谎，启发人们，应随时要擦亮眼睛，重新审视周遭那些惊悚的观点和判断。

2

是什么？

说实话，外文翻译过来的书，可读性基本都差，加之从逻辑脉络（总结）的角度讲，这本书很不好读，说白了，不就是一本全世界近现代有关数据统计的反面案例汇集嘛，不过真佩服作者涉猎的广博，收集如此多的案例。

分类不清，逻辑性不强似乎作者有意在回避。还好书中的诙谐幽默随处可见，译者也没有省略这些“感叹”（很多是作者的嘲讽），几乎每一个案例可以独立成篇，因而读来轻松，时有启发。

我倾向于用“是什么”、“为什么”和“怎么办”来解构一本书，并尽可能的将其分分类，加深自己的理解，便于储存和调用。

一、误区/骗局/陷阱（据说是根据基本统计学原则，还得去买本这样的书来配合读才行），从形成角度分类（有些是跨类，只择其一；例子太多，只选有代表性的）：

1、研讨对象的选择环节：

- 自选择偏差（选择偏差），人所做的事情是基于个性的自己选择，例子：关节镜手术，德克萨斯神枪手。

- 幸存者偏差（选择偏差），易受欺骗的本性，例子：桦尺蠖演化，对称体态，毛发质量。

- 混杂（效应）因素，具有误导性的数据，例子：章鱼保罗（宠物把戏）。

- 随机数据的聚集现象，纯运气。

2、数据统计处理的过程和方法：

- 证实性偏差，先结论后论证的而走偏。

- 安慰剂效应，因期待而产生的改善。

- 逻辑谬误，A.相关性不一定有因果关系；B.非前因即后果。

- 均值回归，对能力的不完美测量，表现相对于能力波动。

- 平均定律，成功一定会得到失败的平衡（反之亦然），以便使事物整体上呈现平均水平。

3、展示结论的环节：

- 图像变形，扭曲和破坏数据（A.忽略零点，放大数据波动性；B.不同数据间隔，时段；C.视觉幻影，横纵轴颠倒，艺术性多于知识性）。

- 模式诱惑，人们倾向于以某种“模式”的方式来解释世界，而有些模式本身就是随机事件生成。例子：《柳叶刀》的疫苗论文，棒球选手的新袜子，股票涨跌与NFC球队输赢等。

二、误区/骗局/陷阱，从人性角度的分类：

一类，是由于不可避免的自然原因或数据样本采集过程中不可避免的局限性而导致的数据欺骗，如自选择偏差、幸存者偏差、随机数据的聚集现象和均值回归等。

另一类，则是人们为了达到某种目的或实现某种目标而对数据进行别有用心地收集和解读，忽略掉不符合自己期望的数据。如模式诱惑、图像变形和平均定律等。

3

为什么？

人类面对统计数据时的三大软肋：

A. 易受欺骗的本性；

B. 对符合自己期望的数据不再进行深入思考的惰性；

C. 以及具有统计显著性崇拜。

与我们关系最为密切的三个骗局分别是：

A. 数据选择过程中存在自选偏差；

B. 数据统计中存在不可避免的偶然性，

C. 人们会根据自己的理想对数据进行别有用心地处理。

4

怎么办？

一、防骗指南：

第一条：要读数据，更要读数据背后的原因；

第二条：要有意识地寻找两种事物之间的合理联系；

第三条：无论什么时候，都要记得对拿到的数据进行检验。

统计思维让我来思考：

模式的正确与否？考到底是怎么处理的数据？图里面到底暗含了些什么？这个解释是否符合常理？这些证据又是不是合理的？等

二、数据是可信的，只是要经过思考和检验。

一方面，在大数据时代，数据已经渗透进了我们生活的方方面面，成为了我们思想和行动的指南。另一方面，我们也应该认识到，数据并不是万能的。只有正确地使用数据，使用正确的数据，才能让数据发挥出上述这些积极的作用。

换句话说，信息时代对我们普通人的统计学知识提出了更高的要求。我们不仅要懂得如何获取数据，更应学会理解和鉴别数据；我们既要破除自己对数据的盲目迷信，又要不断培养自己对数据的辨别能力。只有这样，我们才能更好地利用数据做出决策，实现最美好的生活。

数据不会说谎，有人会错了意。

5

1、习惯于有序思考的人，看这书有点费劲。

2、案例集，分类不规范，结构有点让人摸不着头脑，但分析方法启发人们去思考。

附件，标题的中文翻译：

Standard Deviations:Flawed Assumptions,Tortured Data,and Other Ways to Lie with Statistics

中国的：

有道翻译：标准差：有缺陷的假设，扭曲的数据，以及其他撒谎的统计方法

腾讯君翻译：标准差：有缺陷的假设、扭曲的数据和其他与统计有关的方法

百度翻译：标准偏差：有缺陷的假设、扭曲的数据和其他与统计有关的方法

金山翻译：标准差：错误的假设、扭曲的数据和其他统计方法

搜狗翻译：标准差：有缺陷的假设、受折磨的数据和其他统计方法、

讯飞翻译：标准偏差有缺陷的假设、受折磨的数据和其他与统计数据有关的方法

外国的：

谷歌翻译：标准偏差：有缺陷的假设，折磨数据以及其他与统计数据相关的方法

必应翻译：標準差：有缺陷的假設、被折磨的資料和其他統計的方法（繁体）

网友评论

本文标题：《简单统计学》，擦亮辨识伪数据的火眼金睛

本文链接：https://www.haomeiwen.com/subject/issruqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《简单统计学》，擦亮辨识伪数据的火眼金睛

相关文章