书名:「统计学会说谎」
作者:达莱尔•哈夫
读后感
统计分析结论是从某种目的出发,对事实数据的在加工。分析这个动作,很难抛开人为的感性因素。数据和分析结果都是「真相」,但是真相也能够掩盖或者粉饰真相。
高明的说谎者并不说假话,只是不会告诉你全部的真相。
保持质疑,独立思考。就是我从作者这里收到的最重要的信息。信息爆炸的时代,却也创造了更多的信息差。
操纵统计的把戏,并不高深,就像骗术很多时候不需要进化升级,只要找到合适的愿意受骗的人一样。
思考和质疑过程中的痛苦,和被骗后结果的痛苦,总要选择一个。
接受并尊重自己的选择。
书中摘要
第一章:带有偏差的样本
既然结论是从数据中获得的,那么控制数据样本,就可以轻易的控制数据结论。
为了保证统计结论的价值,统计必须基于一个具有代表性的样本,该样本必须排除偏差的任何可能性。
导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。
也就是说,即使找不到明显的偏差来源,但只要在某处可能存在偏差,你就要对结果保持一定的怀疑。
事实上偏差总会有原因。
选取样本的方法
检验随机样本的方式是:在一个总体中,每个人或每件事被抽样的概率是相等的。
纯随机抽样是唯一可以充分自信地用统计学理论进行检验的方法,但这里也有一个问题:该方法获取样本的难度大、费用高、使用范围小,仅成本一项都难以负担。
更为经济划算的替代方法是分层随机抽样法,该方法在民意测验和市场调研等领域被普遍采用。要获取这种分层样本,需要将总体分为若干部分,每一部分与其普遍性程度要成比例。
第二章:精挑细选的平均数
平均数、中位数... 数据指标只是一种修辞手段而已。
未加限定的平均数其实是毫无意义的,然而一般与收入挂钩的数据多半如此。
如果统计样本符合正态分布,比如人类的身高。那么在样本足够大的情况下,中位数、平均数和众数,是落在同一个点上的。
第三章:没有透露的小小数据
只要统计样本足够小,我可以得出任何想要的结论。有的时候缺失的数据,才是最重要的信息。
只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。
如果要论证的结论本身就是小概率事件,你的实验样本要更更大才行。
关注「概率」,你必须确认你的样本数据很大程度的代表真实的结果,而非机缘巧合之下得出的。
专业术语:显著性检验方法。
显著性水平就是我们最常说的“概率”
对于大多数用途而言,5%的显著性水平已经足够。而对于某些用途而言则需要1%的显著性水平,因为这意味着99%的概率证明了一个显著的差异或诸如此类的东西是真实的。
第四章:无事瞎忙
你需要足够信任你的样本数据。
样本代表整体数据的精确度可以用数字来表示:概率误差和标准误差。
只有显现出来的差别有意义时才可称之为差别。将差别不大的数据予以比较是没有意义的。你必须时刻谨记“±”这个符号,即使它没有被明确标出。
第五章:惊人的图形 &第六章 一维图形
到了数据可视化的时候,能做的就更多了。
大多数情况下,视觉效果起了决定性也是欺骗性的作用。你只需要放出一个迷惑的钩子,读者都会自动帮助你补全结论。
改变横纵坐标的比例,把数字换成夸张的图片,能做的确实很多。
第七章:看似相关的数据
如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装它们是一样的。
那么多让人眼花缭乱的统计数据,读者只关心这个数据炸不炸,几乎没人会注意到其中的差别。使用“看似相关的数据”,这种手段向来有效。
第八章:因果颠倒
也许是处于安全感,人们总是趋于给事物找个因果关系。
很多古老的谬误推理,都来源于此,
具体来说,就是“如果B事件发生在A事件之后,那么,就是A事件引起了B事件”。
这两件事互不为彼此的因果,它们都是某个第三事件的产物。却被一堆令人印象深刻的数据包装过后,产出一个看似很有道理的谬误。
为了避免陷入这种因果谬误,从而相信许多似是而非的东西,需要严格检验各种与相关性有关的说明。
相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。
相关性的类型
- 机缘巧合之下得出的相关。
你可以通过这种方法将一组数据放到一起来证明一些不可能的事。但如果你换一组数据,你就再没办法证明。如果你的样本规模较小,你就能发现你能想到的两个事物之间都能建立显著的相关性。 - “协变关系”
指的是两个变量之间确实存在相关性,但无法确定哪个是因,哪个是果。在某些情况下,因与果可能会随时交换位置;或者两个变量互相既是因,又是果。 - 不存在的相关
两个变量之间不存在因果关系,但变量之间的确存在着某种相关性。尽管这些数据变量之间的确存在相关,但所谓的因果关系也不过是一种推测而已。 - 不考虑适用范围的相关
当原本论证的相关数据超出一定范围,但你还坚持要得出某种结论。正相关达到一个极点就会马上转变为负相关。比如,如果降雨超过一定量,雨水越多,庄稼收成就会越少。
相关表示的是一种趋势,这种趋势却并非人们理想的“一对一”关系。
必须要谨记:就算某种相关性存在,并有真实的因果关系,你仍不能凭此进行决策。
随便处理数据或利用小数点来混淆因果关系比封建迷信强不了多少,而且前者更具误导性。
第九章: 如何操作统计
前述八章讲的很清楚了。如果不去考虑它的数学基础,统计学不仅是一门科学,也是一门艺术。在允许的范围内,你可以进行大量的统计操纵,甚至扭曲事实。毕竟分析是个主观过程。
总结一下:
- 样本上的小动作:控制样本范围、缩减样本大小、忽视误差
- 数据指标上的小动作:选择一个看起来漂亮的数据指标,却不告诉你
- 数据可视化的小动作:修改坐标比例,展现方式。总之就是用美化过的图,炸晕你的脑神经。
- 乱攀因果关系:数字和学术用语总能把人绕晕,看起来有道理,实际都是「虚的」
第十章:如何反驳统计数据
是谁这么说?
首先,要找的第一样东西是偏差。
要找有意识的偏差:
错误陈述
含糊不清的措辞
选出对自己有利的数据,剔除对自己不利的数据
改变衡量的标准;选择不恰当的测算方式
无意识的偏差
“专家”??字面信息下隐藏的那个人到底是不是权威人士,还是说只和权威沾了点边儿
他怎么知道?
数据样本的规模是否大到足以说明问题?
案例是否多到具备显著性?
是否缺乏足够的案例得出相关的结论?
漏掉了什么?
当数据来源关系到利益问题时,数据缺乏就会让人对整件事情产生怀疑。
同样,一个相关如果缺乏可信的测算方式(比如概率误差、标准误差)检验,那么也就没必要把这个相关当真。
要留心那些未加说明的平均数,因为无论在什么时候,均值和中位数都有着本质的差别。许多数据由于无法进行对比而变得没有意义。有时,材料只给出了百分数,却没有给出原始数据,这种数据也带有欺骗性。如果给你一个指数,你也许要问是不是漏掉了什么。该指数也许是被挑来用以扭曲事实的。有时候被漏掉的还有导致变化发生的因素。这种遗漏往往暗示着其他因素才是导致变化发生的主要原因。
有人偷换了概念吗?
在分析一份统计数据时,你要注意在原始数据和最终结论之间有没有什么地方被偷换了概念。将一件事说成是另一件事可是常有的。
因果关系搞乱是偷换概念的另一种方式,将“相关关系”说成“因果关系”。
此外还有“第一”的问题。如果不特别说明涉及的相关领域,每个人都可以宣称自己是业界第一。
这是否合乎情理?
如果你看到的烦琐资料是以一个未经证实的假设为基础,你就要问问“这是否合乎情理?
不少统计材料从表面上看就能知道是假的。这些材料之所以能敷衍了事完全是因为数据的神奇力量使常识暂时失效
能给人留下深刻印象的精确数据也可能是与常识相悖的。
外推法相当有用,尤其是在被称为“预测趋势”的过程中。但是,看见在研究和预测中用到的数据或图表时,你必须时刻谨记:截至目前的趋势或许是事实,但是未来的趋势不过是预测者的猜测。它所隐含的信息是“所有的事情都一样”“目前的趋势还将继续”。但是,所有的事情不会一成不变,否则,生活就会变得无聊透顶。
网友评论