读书笔记：《统计学会说谎》

作者: 伴夏猫 | 来源:发表于2020-01-07 19:28 被阅读0次

《统计数据会说谎》读书笔记
读书笔记：《统计学会说谎》
11
【201802】美剧｛ Young sheldon ｝S01E0
学会不说谎
学习笔记 |《统计思维》笔记 | Day1
孩子说谎是因为你不知道这些！
孩子说谎，有多少是家长的因素
统计学防骗手册——《统计数据会说谎》
我们学会了说谎

书名：「统计学会说谎」
作者：达莱尔•哈夫

读后感

统计分析结论是从某种目的出发，对事实数据的在加工。分析这个动作，很难抛开人为的感性因素。数据和分析结果都是「真相」，但是真相也能够掩盖或者粉饰真相。

高明的说谎者并不说假话，只是不会告诉你全部的真相。
保持质疑，独立思考。就是我从作者这里收到的最重要的信息。信息爆炸的时代，却也创造了更多的信息差。

操纵统计的把戏，并不高深，就像骗术很多时候不需要进化升级，只要找到合适的愿意受骗的人一样。
思考和质疑过程中的痛苦，和被骗后结果的痛苦，总要选择一个。
接受并尊重自己的选择。

书中摘要

第一章：带有偏差的样本

既然结论是从数据中获得的，那么控制数据样本，就可以轻易的控制数据结论。

为了保证统计结论的价值，统计必须基于一个具有代表性的样本，该样本必须排除偏差的任何可能性。
导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。
也就是说，即使找不到明显的偏差来源，但只要在某处可能存在偏差，你就要对结果保持一定的怀疑。
事实上偏差总会有原因。

选取样本的方法
检验随机样本的方式是：在一个总体中，每个人或每件事被抽样的概率是相等的。
纯随机抽样是唯一可以充分自信地用统计学理论进行检验的方法，但这里也有一个问题：该方法获取样本的难度大、费用高、使用范围小，仅成本一项都难以负担。
更为经济划算的替代方法是分层随机抽样法，该方法在民意测验和市场调研等领域被普遍采用。要获取这种分层样本，需要将总体分为若干部分，每一部分与其普遍性程度要成比例。

第二章：精挑细选的平均数

平均数、中位数... 数据指标只是一种修辞手段而已。

未加限定的平均数其实是毫无意义的，然而一般与收入挂钩的数据多半如此。
如果统计样本符合正态分布，比如人类的身高。那么在样本足够大的情况下，中位数、平均数和众数，是落在同一个点上的。

第三章：没有透露的小小数据

只要统计样本足够小，我可以得出任何想要的结论。有的时候缺失的数据，才是最重要的信息。

只有试验的样本数目足够庞大时，平均数定律才会是一个有用的描述或猜测。
如果要论证的结论本身就是小概率事件，你的实验样本要更更大才行。

关注「概率」，你必须确认你的样本数据很大程度的代表真实的结果，而非机缘巧合之下得出的。
专业术语：显著性检验方法。
显著性水平就是我们最常说的“概率”
对于大多数用途而言，5%的显著性水平已经足够。而对于某些用途而言则需要1%的显著性水平，因为这意味着99%的概率证明了一个显著的差异或诸如此类的东西是真实的。

第四章：无事瞎忙

你需要足够信任你的样本数据。
样本代表整体数据的精确度可以用数字来表示：概率误差和标准误差。

只有显现出来的差别有意义时才可称之为差别。将差别不大的数据予以比较是没有意义的。你必须时刻谨记“±”这个符号，即使它没有被明确标出。

第五章：惊人的图形 &第六章一维图形

到了数据可视化的时候，能做的就更多了。
大多数情况下，视觉效果起了决定性也是欺骗性的作用。你只需要放出一个迷惑的钩子，读者都会自动帮助你补全结论。
改变横纵坐标的比例，把数字换成夸张的图片，能做的确实很多。

第七章：看似相关的数据

如果你无法证明自己想要证明的东西，那就展示一些其他东西，并假装它们是一样的。
那么多让人眼花缭乱的统计数据，读者只关心这个数据炸不炸，几乎没人会注意到其中的差别。使用“看似相关的数据”，这种手段向来有效。

第八章：因果颠倒

也许是处于安全感，人们总是趋于给事物找个因果关系。
很多古老的谬误推理，都来源于此，
具体来说，就是“如果B事件发生在A事件之后，那么，就是A事件引起了B事件”。
这两件事互不为彼此的因果，它们都是某个第三事件的产物。却被一堆令人印象深刻的数据包装过后，产出一个看似很有道理的谬误。

为了避免陷入这种因果谬误，从而相信许多似是而非的东西，需要严格检验各种与相关性有关的说明。

相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。

第九章：如何操作统计

前述八章讲的很清楚了。如果不去考虑它的数学基础，统计学不仅是一门科学，也是一门艺术。在允许的范围内，你可以进行大量的统计操纵，甚至扭曲事实。毕竟分析是个主观过程。

总结一下：

样本上的小动作：控制样本范围、缩减样本大小、忽视误差
数据指标上的小动作：选择一个看起来漂亮的数据指标，却不告诉你
数据可视化的小动作：修改坐标比例，展现方式。总之就是用美化过的图，炸晕你的脑神经。
乱攀因果关系：数字和学术用语总能把人绕晕，看起来有道理，实际都是「虚的」

第十章：如何反驳统计数据

是谁这么说？
首先，要找的第一样东西是偏差。
要找有意识的偏差：
错误陈述
含糊不清的措辞
选出对自己有利的数据，剔除对自己不利的数据
改变衡量的标准；选择不恰当的测算方式
无意识的偏差
“专家”？？字面信息下隐藏的那个人到底是不是权威人士，还是说只和权威沾了点边儿

他怎么知道？
数据样本的规模是否大到足以说明问题？
案例是否多到具备显著性？
是否缺乏足够的案例得出相关的结论？

漏掉了什么？
当数据来源关系到利益问题时，数据缺乏就会让人对整件事情产生怀疑。
同样，一个相关如果缺乏可信的测算方式（比如概率误差、标准误差）检验，那么也就没必要把这个相关当真。
要留心那些未加说明的平均数，因为无论在什么时候，均值和中位数都有着本质的差别。许多数据由于无法进行对比而变得没有意义。有时，材料只给出了百分数，却没有给出原始数据，这种数据也带有欺骗性。如果给你一个指数，你也许要问是不是漏掉了什么。该指数也许是被挑来用以扭曲事实的。有时候被漏掉的还有导致变化发生的因素。这种遗漏往往暗示着其他因素才是导致变化发生的主要原因。

有人偷换了概念吗？
在分析一份统计数据时，你要注意在原始数据和最终结论之间有没有什么地方被偷换了概念。将一件事说成是另一件事可是常有的。
因果关系搞乱是偷换概念的另一种方式，将“相关关系”说成“因果关系”。
此外还有“第一”的问题。如果不特别说明涉及的相关领域，每个人都可以宣称自己是业界第一。

这是否合乎情理？
如果你看到的烦琐资料是以一个未经证实的假设为基础，你就要问问“这是否合乎情理？
不少统计材料从表面上看就能知道是假的。这些材料之所以能敷衍了事完全是因为数据的神奇力量使常识暂时失效
能给人留下深刻印象的精确数据也可能是与常识相悖的。
外推法相当有用，尤其是在被称为“预测趋势”的过程中。但是，看见在研究和预测中用到的数据或图表时，你必须时刻谨记：截至目前的趋势或许是事实，但是未来的趋势不过是预测者的猜测。它所隐含的信息是“所有的事情都一样”“目前的趋势还将继续”。但是，所有的事情不会一成不变，否则，生活就会变得无聊透顶。

《统计数据会说谎》读书笔记
wordrepss原文链接：《统计数据会说谎》读书笔记《统计数据会撒谎》 how to lie with sta...
读书笔记：《统计学会说谎》
书名：「统计学会说谎」作者：达莱尔•哈夫读后感统计分析结论是从某种目的出发，对事实数据的在加工。分析这个动作，...
11
要学会说谎
【201802】美剧｛ Young sheldon ｝S01E0
20180213 ▘S01E09｛谢/尔顿学会了说谎｝帮哥哥复习，结果被哥哥带坏了，学会了说谎[允悲] ▘S01...
学会不说谎
一个谎言需要一系列的谎言进行圆谎今天真的感受到了说谎话的危害，整个人都失去了方向，内心忐忑不安，总怕谎言被戳穿。...
学习笔记 |《统计思维》笔记 | Day1
读书笔记 READING NOTES 第一章当我们在讨论统计学时，我们在谈些什么学会洞察因果的三步： 1.理...
孩子说谎是因为你不知道这些！
据专家统计，儿童说谎话67%是由于畏惧和怕嘲笑引起的，10%与儿童的想象、夸张有关，只有20%的孩子是故意说谎。 ...
孩子说谎，有多少是家长的因素
孩子其实最初是不会说谎的，说谎都是后天学会的“本事”。但具体都是什么原因导致孩子说谎，大概与家长有大半儿的关系。 ...
统计学防骗手册——《统计数据会说谎》
统计学防骗手册——《统计数据会说谎》一本简单易上手的统计学防上当受骗手册。作者的本意并不是指责负责数据的统计学家...
我们学会了说谎
文/苏家小榭嘿，朋友，你会不会有一种感觉，身边的人开始掩饰自己，再也不轻易把自己的生活说出口，总是习惯于各色各样...

读书笔记：《统计学会说谎》

读后感