读书笔记丨简单统计学：如何识破一本正经的胡说八道

作者: 艺迦迦 | 来源:发表于2019-08-04 12:57 被阅读48次

Gary Smith《统计思辨》提要
股票
荐书.重新帮助我们客观看待世界的好书
读书笔记丨简单统计学：如何识破一本正经的胡说八道
一本正经胡说霸道
2019-01-04
用pandas 给列值添加百分号方法枚举
Python学习之旅(贰)
胡侃——中国的美学是建立在二元论的世界观之上
19设计自己的开场白和话术（持续更新）

一看这本书，就被书名所吸引。特别是它的副标题——如何识破一本正经的胡说八道。

现在自媒体流行，信息传播非常迅速。其中，有一种对大家危害特别大。这就是伪科学的流行。证伪的成本是如此之大，所以，伪科学很难识破。对于我们普通人来说，如何听信了那些伪科学或者是谣言，那么，轻则影响我们的判断，重则影响我们的健康，甚至生命。

前段时间有个人特别出名，伊丽莎白·霍尔姆斯，名字你可能不熟悉，但是提起“美国版权健”，你可能有所耳闻，这位全球有名的女骗子靠着“即时验血”这种子虚乌有的技术，骗过了很多大咖，甚至美国前总统奥巴马都命她为“美国全球创业大使”，克林顿等曾和她一起出席访谈，谈笑风生。就因为她的公司拥有一种技术，可以只抽一滴血，就能检验出300项生理指标，大大提高当代医疗服务的效率。

这个骗局影响了很多人，让很多人损失惨重，甚至延误了病情。

我们应该如何提高识破骗局的能力呢？作者的答案是懂点简单统计学。

《简单统计学》一书，就是一本帮助我们轻松拆穿日常生活中的数字谎言的防骗指南。

作者加里·史密斯在书中为我们列举了10余种数据作假方式，比如当年轰动世界的神算子——章鱼保罗的骗局、比如癌症发病率与居住地关系等。其中与我们关系最为密切的三个骗局分别是：数据选择过程中存在自选偏差；数据统计中存在不可避免的偶然性，以及人们会根据自己的理想对数据进行别有用心地处理。

一、这些骗局大致可以分为两类：

一类是由于不可避免的自然原因或数据样本采集过程中不可避免的局限性而导致的数据欺骗，比如偶然性因素对数据的影响；

另一类则是人们为了达到某种目的或实现某种目标而对数据进行别有用心地收集和解读，比如忽略掉不符合自己期望的数据。

二、出现统计结论错误的原因

1、低估随机事件的发生概率。

2、被数据欺骗。

3、我们有产出错误结论的动机。

三、常见的统计错误结论

1、自选择偏差。指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差。如果我们在比较做出不同选择的人，同时不去考虑他们为什么做出这些选择的时候就会出现自选择偏差。比如参加体育活动的孩子比较自信，并不能说明体育运动能增强自信，也许有自信的孩子更愿意参加竞争性的活动；大学生的平均工资高于高中生，可能有一部分原因是他们更加聪明更加有抱负。

2、幸存者偏差。我们会观察人们的工作、游戏和生活，而且我们会自然而然地根据我们看到的现象得出结论。我们的结论可能会失真，因为这些人所做的事情是他们自己选择的。我们观察到的特点可能并非源于活动，而是反映了选择这种活动的人的个性。

3、变形的图像。图像可能会扭曲和破坏数据。图像可以揭示某种模式，比如收入随时间的变化以及收入与支出的相互关系。图像也会扭曲数据，误导读者。当心将数轴上的零点忽略掉的图像。这种忽略可以将图像放大，显示出之前由于分辨率问题而无法发觉的模式。不过，这种做法也会放大数据的波动性，可能产生误导效果。最糟糕的是数轴上没有数字的图像，因为我们无法判断数据的波动性得到了怎样的放大。

四、如何识辨和避免这些错误

1、保持怀疑。当某人向你展示某种模式时，不管这个人的履历多么令人震撼，你都应该保持怀疑，问一问“为什么”。不管遇到怎样的模式，你都应该思考：为什么会出现这种模式？特别是对于天马行空的反直觉的理论，应抱有极为谨慎的怀疑态度。另外如果两种事物之间没有合理的联系，那么即便他们数据上呈现相关性，也不能证明有因果关系。

2、注意数据的完整性和真实性。在研究中遗漏数据是一个危险信号，因为一些数据被丢弃或者“调整”，可能是因为他们对理想结果相矛盾。

3.比较是实证研究的生命线。在与某种替代方案进行比较之前，我们无法确定某种药物、疗法、政策或策略的有效性。不过，请当心肤浅的比较，包括对于大数和小数百分比变化的比较，对于除了随时间增长以外没有其他共同点的事物的比较，以及对于无关数据的比较。这些比较就像苹果和李子干之间的比较一样。

4.具有争议性的论断之所以具有争议性，是因为它们违反直觉——这是一个很好的怀疑理由。当你听到这样的说法时，不要轻易认为自己是错误的。具有争议性的论断很可能应当被丢弃。考虑数据是否存在问题，比如自选择偏差。考虑因果关系是否应该颠倒过来。哦，对了，还要考虑出现错误的可能性（比如人们让计算机计算 196 的平方根，而不是 169 的平方根。即使是最优秀、最诚实的研究人员也是人），而人总会犯错误。

5.仔细观察并考虑混杂因素，如果一项研究支持你的观点，你会自然倾向于会意地点点头，认为你的观点得到了证实。更加明智的做法是进行仔细观察并考虑混杂因素。当一项研究看上去不合理时，你也应当采取这种做法。例如，伯克利研究生录取政策歧视女性的说法看上去是合理的。不过，当人们开展深入调查，以确定问题最严重的院系时，他们发现了意想不到的现象——实际上，这些院系倾向于优待女性申请人。女性的总体录取率之所以偏低，是因为她们更喜欢申请录取率较低的教育计划。由于潜在的自选择偏差和混杂因素，观测性研究存在固有的挑战性。应时刻对利用数据发现理论的研究保持警惕。

6.我们喜欢在数据中寻找模式并为我们所看到的模式编造一些理由，这是无法避免的事情。因此，我们很容易相信好手感和差手感的说法是真实的，相信成功率会出现极大的波动。记住，即使在随机的抛硬币实验中，也会出现仅仅来自巧合的、引人注目的连续成功和连续失败现象。好手感和差手感很可能的确存在，但它比我们想象的要小得多。

7.均值回归。当学术能力或运动能力等特点得到不完美测量时，观测到的表现差异会夸大实际能力差异。表现最优秀的人与平均水平的距离很可能不像看上去那样遥远，表现最为糟糕的人也是如此。因此，他们随后的表现将会朝着均值回归。均值回归也不意味着能力向均值收敛、大家很快就会具有平均水平，它仅仅意味着极端表现在经历好运和霉运的群体之间轮换。

8.我们经历糟糕的运气时，我们希望自己能够转运。我们的霉运不可能永远持续，但发生在我们身上的坏事并不会自动提高发生好事的可能性。要想改变运气，我们通常需要改变自己的行为。例如，如果我们在找工作时不断遭到拒绝，我们应当考虑如何更好地表现自己，或者考虑申请不同的工作。正负相抵只是一个笑话，不是值得信赖的规律。

9.某种理论与数据聚集现象相符并不是一种具有说服力的证据。人们发现的解释需要言之有理，而且需要得到新数据的检验。

10.对于看上去天马行空的理论，应当抱有极为谨慎的怀疑态度。

11.不要把资金押在历史模式以及几乎没有合理解释的关系上。

12.我们既需要理论，也需要数据。不要仅仅被其中的一种事物说服。如果有人通过搜刮数据发现了某种模式，我们还需要一种合理的理论。另一方面，在经过令人信服的数据检验之前，理论仅仅是理论而已。不管一项研究是谁做的，它都需要通过常识性检验，而且需要通过没有被数据挖掘所污染的无偏数据的检验。

总结一下：

三条防骗指南

第一条：要读数据，更要读数据背后的原因；

第二条：要有意识地寻找两种事物之间的合理联系；

第三条：无论什么时候，都要记得对拿到的数据进行检验。

Gary Smith《统计思辨》提要
中文译本为《简单统计学：如何轻松识破一本正经的胡说八道》，感觉和内容有些偏离，未免有哗众取宠的嫌疑，“统计思辨”更...
股票
［股票］《简单统计学》加里史密斯后浪/江西人民出版社如何轻松识破一本正经的胡说八道 2018/01～我之前的团...
荐书.重新帮助我们客观看待世界的好书
本期推荐一本书，也是诺贝尔经济学家罗伯特希勒推荐的，书名是《简单统计学:如何轻松识破一本正经的胡说八道》概率与统...
读书笔记丨简单统计学：如何识破一本正经的胡说八道
一看这本书，就被书名所吸引。特别是它的副标题——如何识破一本正经的胡说八道。现在自媒体流行，信息传播非常迅速。其...
一本正经胡说霸道
一本正经胡说八道
2019-01-04
一本正经的胡说八道
用pandas 给列值添加百分号方法枚举
一本正经的胡说八道的猫
Python学习之旅(贰)
文|一本正经胡说八道的猫---------------------------------------------...
胡侃——中国的美学是建立在二元论的世界观之上
此文纯属一本正经的胡说八道。
19设计自己的开场白和话术（持续更新）
谢谢大家给我这次和你们认识的机会，下面我开始我的一本正经的胡说八道。下面是有福的一本正经的胡说八道时间。好，我...