统计学下的真相

作者: 关山南 | 来源:发表于2018-03-21 11:02 被阅读0次

统计学下的真相
“刘昊然”的数据分析实习
统计学关我什么事！
机器学习随笔
2017-10-27
中国海洋大学432应用统计学专业课攻略（2018级）
主题模型——总结
清单21.1.4
盛宴下的真相
#蔷薇下的真相#

有人说，建造采石场有利于附近房价的增长。有的人对此嗤之以鼻，但经过考察发现，建造采石场后，附近的房价在五年内平均以3%的速度增长。

我们仅凭常识便可以判断，建造采石场有利于附近房价的增长是不成立的。事实上，在建采石场那年，整个城市的房价都开始增长。无论建不建采石场，房价都会上涨。

忽略房价增长年份和周围房价，仅凭房价在建采石场后连续上涨就得这样的结论，这未免有点草率。说话的人混淆两件事物的相关性和因果性。看到两件事物具有相似的发展趋势，就误认为两者具有相关性，甚至认为两者是互为因果关系。这就犯了统计学错误。

在数据泛滥的今天，数据代表着说服力。虚假片面的数据满天飞。学会一点统计学知识能让我们识别隐含在数据中的谎言，避免因盲信数据而吃亏。在很多人看来，统计学是一门艰深难懂的学科。《简单统计学》告诉你统计学并不晦涩难懂。

《简单统计学》是一本名副其实的统计学轻松入门书。作者加里·史密斯用大量有趣的案例，结合统计学知识向读者讲述案例的错误之处。你会发现，即使是专业人士也会犯一些常识性错误，有些人为了符合假设理论是如何“筛选”数据的，一些集团为了迷惑消费者又如何“歪曲”展现图像。读完整本书，读者会连呼受骗，身边的数据陷进竟是如此多，在观察数据之前不自觉地对其真实性进行思考。

加里·史密斯曾在耶鲁大学任教，擅长结合生活中的实例，深入浅出地剖析其中的统计学错误，也因此两度获得耶鲁大学的教学奖。其课程深受学生欢迎。

《简单统计学》中纠正的统计学错误包含数据收集、数据分析、数据解释三个方面。在数据收集阶段，加里·史密斯着重讲幸存者效应。他将大量的篇幅用在数据分析阶段，揭穿一些人是如何从数据“推导出”想要的理论。在数据处理阶段，作者又提醒你注意有些人如何“歪曲”图表来误导他人。在数据分析阶段，他剖析许多生活现象，揭露某些人歪曲数据本意的方法，给读者还原各种数据真相。

数据收集

人们所做的决策依赖于其对事物的了解。或许你深究每一数据的来源，一丝不苟地收集信息，做大量的调查以保证数据的可靠性。但《简单统计学》提醒你，再细致严谨收集到的数据也可能是不真实的。幸存者偏差和选择性偏差就是很好的例子。

幸存者偏差是由数据收集不完整或者无法收集完整造成的。其最著名的一个例子发生在二战时期。英国皇家空军打算在飞机上安装厚钢板。这样可以帮助飞机抵抗敌军攻击。他们对结束轰炸任务的飞机来收集弹孔和弹片孔的位置。弹孔集中在机翼和飞机尾部，而驾驶舱、发动机和油箱几乎没有弹孔。具体的分布如下图

图1 返航飞机的子弹分布情况

看到图片，我们很容易得出需要在机翼和飞机尾部加厚钢板的结论。然而，亚伯拉罕·瓦尔德意识到英国皇家空军统计的数据存在幸存者偏差。那些驾驶室、发动机或者油箱中弹的飞机根本飞不回来。所以，接受调查的飞机中弹孔位置大多在机翼、飞机尾部。人们根据他的建议将厚钢板装在驾驶室、发动机和油箱。坠落的飞机果然大大减少。

数据是真实的。机翼和飞机尾部上的确有很多弹孔。但是数据是不完整的。人们忽略了坠毁的飞机，也无法获取这些飞机的弹孔分布情况。如果没有意识到幸存者偏差，人们就会做出一些错误的决定。

类似的还有成功学、大公司的共同特质、股票赚钱的法门等。人们通过调查成功人士的性格、行为习惯，大公司的某些方面的特点，在股票市场中赢很多钱的人是按何种策略投资的。然后，总结出一些共同的特点，称之为“成功的方法”。社会和市场千变万化，成功不只是一个或几个因素导致的。他们对成功的人或公司进行调查，却忽略另外一些具有相同特点而没有取得成功的人、公司。

失败的人和公司有千千万万，原因也各有各的不同。失败的人或公司又难以进入人们的视野。这样一来，人们难以获得完整的数据，基于成功者的调查而得出的结论也就不可靠。

容易误导人的数据也有可能来自选择性偏差。人们自身的选择会导致某些行为或者现象有更大的概率发生。有人认为参与竞争性活动的孩子更自信。也许是自信的孩子喜欢参与具有竞争性的活动，所以人们观察到参加竞争性活动的孩子往往更自信，而不是参加竞争性活动能让孩子更自信。

数据收集是一项繁重的工作，稍不慎就有可能推断出错误的结论。万丈高楼平地起。如果收集数据的基础不稳，推导结论的大厦也不会可靠。具有统计学思维的第一步是要对数据保持敏感和警惕，数据是会说谎的。

数据处理

数据处理是指将数据用图表的形式表现出来。在这一阶段，有人会用些小把戏来误导人们的判断。如忽略坐标的零点，两张图形的单位不一致。下图是山西省从2010年到2016年度GDP总量的不同表示方法。（数据来源于国家统计局）

图2 山西省年度GDP折线图1

图3 山西省年度GDP折线图2

可以看出，图2中的折线走势不明显，增长幅度不大。而图3中的折线则是先迅速增长再进行缓慢增长。造成这种差异的原因在于，图2中的纵轴坐标是从0开始的，而图3的则是从9000开始。如果不仔细看坐标轴，很容易造成不同的感觉。一些别有用心的人会利用这一点，引导人们从感性上相信他的观点。

图表能够方便人们处理数据，还原数据原本面目，但也能帮助制造者引导读者的判断。在数据处理阶段，我们应该反省和警惕图表是否还原事实。

数据分析

矿藏总是深埋地下。要从中获取有意义的信息，必须先对数据进行分析才能得出有意义的结论。

人们发现，很多大师在一举成名之后，在很长的一段时间里都没有超越成名作的作品出现。因为成名之后带来的名利使之浮躁而不能潜心创作？这个解释也许是对的，但还是有点偏主观因素。从一个相对客观的角度——统计学角度来看，这是一种均值回归现象。

均值回归常被用于金融领域，是指当高于或低于均值时，股票价格都有很大的概率出现向均值回归的趋势。

我们可以从测量能力的角度来理解均值回归。如果一个人的能力值为80，他有可能在空间想象能力上得到98分，而在逻辑推理能力上得到50分，在其它方面的表现则在80分上下波动。如果只看到98分的高分，我们应该想到他的综合表现也许没那么高。相反，看到50分的低分，我们考虑到他在其它方面的表现并没有那么低。当我们考察他的综合能力时，极强和极弱的两个方面都没表现出来。

加里·史密斯在书中展示了一些美国职业棒球大联盟选手的击球率。

表1 一些美国职业棒球大联盟选手的击球率

从表1中可以看出，汉密尔顿和冈萨雷斯在2010年的击球率最高，在此之前和之后的一年其击球率都比较低。人们在2010看到冈萨雷斯的表现后，会期待他下一次有更好的表现。但是这前一年或者后一年的击球率都接近职业生涯的平均水平。偶尔有一次突出的表现，在此之前或之后的表现都更接近平均水平，体现了均值回归的趋势。

需要注意的是，均值回归并没有反应一个人的能力变化。它表示的是在一段时间内的平均水平，而人们每次表现会围着平均水平上下波动，有向均值靠近的趋势。所以，在成名作之后的一段时间内，某个大师或者歌手没有作品能超越成名作符合了均值回归的特性。他们的下一次表现也许就恢复之前的水平，而不是继续有更优秀的作品出现。

有时候人们在分析数据时，会出现数据矛盾的现象，而数据是真实的。我们可以通过一个例子来说明问题。下表是某大学四个系的研究生新生录取率。

表2 某大学中四个院系录取情况

从表2中可以看出，每个系的女性录取率都高于男性的，而总的录取率却低于男性录取率。这就是辛普森悖论。在分组中占优势的一方，在总评中却占了劣势。虽然就单项而言，女性录取率高，但是在录取率高的院系中录取的女性人数没有男性的人数多，所以总体上录取的男性人数较多。总的申请人数相近的情况下，由于被录取的男性人数多，所以男性总的录取率比女性的高。因此，考虑权重和混杂因素是数据分析阶段的重要因素。

除了均值回归、辛普森悖论，加里·史密斯还在书中介绍了很多常见的现象，分析一些很多人在数据分析时会犯的错误。例如，截取、忽略某些数据使其符合某种预设的理论，把相关性当做因果性，由数据聚集推导而来的结论。

大部分人不需要像统计学一样专业的知识。一个个精彩的故事，一幅幅形象的图表，没有公式和计算。《简单统计学》揭示了生活中常见的假象和错觉，还原数据的真相。遇到数据时，你会用新的角度来看待它，对其真实性进行评估，不再被数据忽悠。