数据时代到来,统计学和概率论知识迎来更多的关注。一本《赤裸裸的统计学》成为热门,广受推荐。作者查尔斯·惠伦(Charles Wheelan)是芝加哥公共电台WBEZ节目财经记者,他用通俗易懂、幽默诙谐的语言,扒开概率统计的沉闷外衣,揭开大数据的神秘面纱,让我们知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。读完此书不会成会专家,但是会让你避免掉入“统计陷阱”,用作者的话来说,“用数据说谎很容易,但是用数据说出真相却很难”。
先看两个书中提到的例子。
蒙提·霍尔悖论
美国一档有名的电视节目《让我们做个交易》,由蒙提·霍尔主持。节目的最后一关,有机会获得大奖的选手和蒙提·霍尔站在三扇巨大的门前面。其中一扇门的后面摆放着大奖轿车,而其余两扇门后各站着一头山羊。选手需要在这三扇门中选择一扇门,得到门后的奖品。
中大奖的概率一目了然,选手有1/3的概率能选中后面放着轿车的那扇门。但是这个节目的微妙之处在于,主持人蒙提·霍尔事先知道每扇门后是什么,当选手选中一扇门之后,蒙提·霍尔并不会马上揭晓答案,而是会打开剩下未被选中的两扇门中的一扇,这扇门的后面一定是一头山羊。蒙提·霍尔会询问选手,是否更改之前的决定,也就是可以在刚才选择的那扇门和剩下的那扇门中再选择一次。这时,这两扇门依旧紧闭着,选手唯一得到的新信息是,在自己刚才没有选择的那两扇门中,有一扇门后面是一头山羊。
选手应该改变最初的选择吗?答案是肯定的,因为改变之后,中奖概率由1/3变为2/3。原因后面解释。
检测为阳性的患病概率
假设某种罕见疾病的患病率为0.001%,即10万分之一。假设检测过程中不会产生一例伪阴性(也就是患病者绝不会被误检为正常),但产生伪阳性(即没有患此病的人会被误检为阳性)的概率为万分之一。这个检测准确率已经非常高了,但结果是,绝大部分被诊断为阳性(也就是患有此病)的人实际上根本没有得此病。这又是为什么呢?
书中假设对美国1.75亿成年人进行筛查检测。那么,按照0.001%的患病概率和百分之百的阳性检测正确率(不会有一例被误检为阴性),将会有1750人确实患有疾病且检测为阳性。而在剩下的99.999%的健康人中,将会有万分之一的人(0.01%)被误诊为阳性,即1.75亿×99.999%×0.01%,约为17500人。由此可以看出,筛查检测中总共有19250人的检测结果为阳性,但真正患病的只有9%。这还是一个准确性非常高、伪阳性非常低的检测。
《赤裸裸的统计学》思维导图类似在现实生活中有趣的例子和应用在书中还提到很多,如视频网站如何推荐和你胃口的影片,为什么购买保险是一项“糟糕的投资”,排名靠前的学校就更好吗,怎样在地下停车场快速找到商城入口,篮球运动员投篮的“手感”其实是不存在的……这些例子可以作为辨识和驳斥朋友圈里那些无脑必转和秀智商下限的反智文章的有力武器。
这本书通过这些生动的案例,深入浅出地介绍了概率期望和大数定律、相关性和相关系数、正态分布、标准差和中心极限定理、平均数和中位数、回归分析最小二乘法、中心极限定理等。提出了一些常见的误区,如赌徒谬论、幸存者偏差、选择性偏见、相互独立事件的滥用误区……
可能有人认为这书太浅显了,很多精深的理论和方法没有讲透。其实这正是作者的高明之处,通过浅显的案例和语言,在轻松愉快的氛围下,让初学者能够有醍醐灌顶之感,数学并不像一般人认为的那样恐怖,并不需要掌握多少高深的数学理论,就可以成为我们生活中的好帮手、好工具。
提炼10条书中的观点:
统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未能掌握所有信息的“大”问题。简言之,我们能够使用“已知世界”的数据来对“未知世界”进行推断。
数学不能代替判断。用数据说谎容易,但是用数据说出真相却很难。所以,需要时刻问自己,“这是所有情况吗?”任何一种简化都会面临被滥用的危险。
数据是包裹着华丽外衣的信息,但只不过是知识的原材料。很多时候琐碎而不重要,但有时却能打开一扇洞察人类本质的窗户。
统计学更像是侦探们做的事。数据里隐藏着线索和模型,沿着这些线索和模型,我们最终能够得到有意义的结论。但是如果基础数据本身就有问题,那么再缜密严谨的分析也是徒劳。
学习统计学并不是要去做数学计算题,或在朋友和同事面前炫耀你学到的高级统计技巧,而是通过学习知识来认清我们的生活。
所有指数均取决于其构成的描述性数据以及它们的权重,任何一丁点儿微小的变化都有可能引起结果的改变。因此,最终得到的那个指数,可能不完美但有现实意义,也可能是完全不合理的。将一系列复杂的信息浓缩成一个数字,这是所有指数都具备的优点,也是所有指数的缺点所在。
即使在最理想的情况下,统计分析也很少告诉我们“真相”。令人眼花缭乱的描述性数据可以从某些角度对这个问题进行回答,但总是无法给出一个令所有人都信服的最终答案。
我们应该弄明白“精确”和“准确”之间至关重要的区别。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。
没有比代表性样本更有用的统计学工具了,获得一个好样本比想象的难,那些耸人听闻的夸张结论,其中有许多都是由于准确的统计方法被应用在了糟糕的样本上。
概率学本身不会犯错,犯错的是使用它的人。即使概率有再多的简洁特性和精准优点,也不能代替人类作为行为主体对其进行的计算以及对计算的原因所做的思考。
如今,概率统计比以往任何时候都更加重要,因为我们现在有了更多机会来充分利用数据并从中获取有意义的信息。统计学并不会告诉我们怎样使用数据是合适的,它可能让我们的生活变得更好,但滥用也会造成严重的后果。所以再重复一次:数学并不能代替判断。数学有助于做出判断,但判断比数学更重要。
回到开头蒙提·霍尔悖论的例子。可能有的人会认为,两扇门中奖概率都一样啊,一扇门后是轿车、一扇门后是羊,都是1/2,或者都是1/3,改不改没什么不同,不如坚持初心。为什么另一扇门的概率由1/3变为2/3了呢?
其实这时候的另一扇门,并不仅仅代表那一扇门,而是选手之前未选择的那两扇门。我们清楚,主持人是知道每一扇门背后的奖品是什么的。那么可以这样想,一开始选手选了一扇门比如a,这时主持人问选手换不换成另两扇门b和c。车有可能在a门后,也可能在b或c门后。不换,1/3,换,2/3。不管选手选择换不换,主持人都会在b和c中间打开那扇没有车的门。主持人打不打开其中一扇门,其实对选择的概率是没有影响的。
如果你不相信或仍未看懂,书中用了3种不同的方法来证明这一选择的正确性,可以再去深入了解下。如果你要说,我就是认定之前的那扇门后是大奖,坚决不换,那也没办法,因为这里只是从概率上进行分析。换了之后中奖的概率比不换要大,但并不保证一定中大奖。不能因为有人选择不换但中了大奖,而去质疑选择换的合理性,那就陷入了幸存者偏差的误区了。
网友评论