美文网首页呆萌写作营呆萌写作营天天向上队
《简单统计学》,擦亮辨识伪数据的火眼金睛

《简单统计学》,擦亮辨识伪数据的火眼金睛

作者: 恰恰天蓝 | 来源:发表于2019-03-03 10:20 被阅读19次

文/恰恰天蓝


本书于我: ★ ★ ★ 

关键词:数据、统计、谎言  

1

来做个测试,请你判断合理性:

- 吃西兰花,可以预防癌症。

- 上半年出生的人,更容易成功。

- 数字6和8,能给人们带来好运。

- 本命年要穿红衣服,可消灾。

- 允许堕胎可以降低犯罪率(美国)。 

这些我们身边能举出来的判断,有几个合理的呢?以上,一个没有 ;对,就是一个没有。

这些,在本书你可得到答案。

同时,它戳穿了久负盛名的《魔鬼经济学》、《追求卓越》等超级畅销书的弥天大谎,启发人们,应随时要擦亮眼睛,重新审视周遭那些惊悚的观点和判断。


2

是什么?

说实话,外文翻译过来的书,可读性基本都差,加之从逻辑脉络(总结)的角度讲,这本书很不好读,说白了,不就是一本全世界近现代有关数据统计的反面案例汇集嘛,不过真佩服作者涉猎的广博,收集如此多的案例。

分类不清,逻辑性不强似乎作者有意在回避。还好书中的诙谐幽默随处可见,译者也没有省略这些“感叹”(很多是作者的嘲讽),几乎每一个案例可以独立成篇,因而读来轻松,时有启发。

我倾向于用“是什么”、“为什么”和“怎么办”来解构一本书,并尽可能的将其分分类,加深自己的理解,便于储存和调用。

一、误区/骗局/陷阱(据说是根据基本统计学原则,还得去买本这样的书来配合读才行),从形成角度分类(有些是跨类,只择其一;例子太多,只选有代表性的):

1、研讨对象的选择环节:

- 自选择偏差(选择偏差),人所做的事情是基于个性的自己选择,例子:关节镜手术,德克萨斯神枪手。

- 幸存者偏差(选择偏差),易受欺骗的本性,例子:桦尺蠖演化,对称体态,毛发质量。

- 混杂(效应)因素,具有误导性的数据,例子:章鱼保罗(宠物把戏)。

- 随机数据的聚集现象,纯运气。

2、数据统计处理的过程和方法:

- 证实性偏差,先结论后论证的而走偏。 

- 安慰剂效应,因期待而产生的改善。

- 逻辑谬误,A.相关性不一定有因果关系;B.非前因即后果。

- 均值回归,对能力的不完美测量,表现相对于能力波动。

- 平均定律,成功一定会得到失败的平衡(反之亦然),以便使事物整体上呈现平均水平。

3、展示结论的环节:

- 图像变形,扭曲和破坏数据(A.忽略零点,放大数据波动性;B.不同数据间隔,时段;C.视觉幻影,横纵轴颠倒,艺术性多于知识性)。

- 模式诱惑,人们倾向于以某种“模式”的方式来解释世界,而有些模式本身就是随机事件生成。例子:《柳叶刀》的疫苗论文,棒球选手的新袜子,股票涨跌与NFC球队输赢等。

二、误区/骗局/陷阱,从人性角度的分类:

一类,是由于不可避免的自然原因或数据样本采集过程中不可避免的局限性而导致的数据欺骗,如自选择偏差、幸存者偏差、随机数据的聚集现象和均值回归等。

另一类,则是人们为了达到某种目的或实现某种目标而对数据进行别有用心地收集和解读,忽略掉不符合自己期望的数据。如模式诱惑、图像变形和平均定律等。

3

为什么?

人类面对统计数据时的三大软肋:

A. 易受欺骗的本性;

B. 对符合自己期望的数据不再进行深入思考的惰性;

C. 以及具有统计显著性崇拜。

与我们关系最为密切的三个骗局分别是:

A. 数据选择过程中存在自选偏差;

B. 数据统计中存在不可避免的偶然性,

C. 人们会根据自己的理想对数据进行别有用心地处理。

4

怎么办?

一、防骗指南:

第一条:要读数据,更要读数据背后的原因 ;

第二条:要有意识地寻找两种事物之间的合理联系;

第三条:无论什么时候,都要记得对拿到的数据进行检验。

统计思维让我来思考:

模式的正确与否?考到底是怎么处理的数据?图里面到底暗含了些什么?这个解释是否符合常理?这些证据又是不是合理的?等

二、数据是可信的,只是要经过思考和检验。

一方面,在大数据时代,数据已经渗透进了我们生活的方方面面,成为了我们思想和行动的指南。另一方面,我们也应该认识到,数据并不是万能的。只有正确地使用数据,使用正确的数据,才能让数据发挥出上述这些积极的作用。

换句话说,信息时代对我们普通人的统计学知识提出了更高的要求。我们不仅要懂得如何获取数据,更应学会理解和鉴别数据;我们既要破除自己对数据的盲目迷信,又要不断培养自己对数据的辨别能力。只有这样,我们才能更好地利用数据做出决策,实现最美好的生活。

数据不会说谎,有人会错了意。


5

1、习惯于有序思考的人,看这书有点费劲。

2、案例集,分类不规范,结构有点让人摸不着头脑,但分析方法启发人们去思考。


附件,标题的中文翻译:

Standard Deviations:Flawed Assumptions,Tortured Data,and Other Ways to Lie with Statistics

中国的:

有道翻译:标准差:有缺陷的假设,扭曲的数据,以及其他撒谎的统计方法

腾讯君翻译:标准差:有缺陷的假设、扭曲的数据和其他与统计有关的方法

百度翻译:标准偏差:有缺陷的假设、扭曲的数据和其他与统计有关的方法

金山翻译:标准差:错误的假设、扭曲的数据和其他统计方法

搜狗翻译:标准差:有缺陷的假设、受折磨的数据和其他统计方法、

讯飞翻译:标准偏差有缺陷的假设、受折磨的数据和其他与统计数据有关的方法

外国的:

谷歌翻译:标准偏差:有缺陷的假设,折磨数据以及其他与统计数据相关的方法

必应翻译:標準差:有缺陷的假設、被折磨的資料和其他統計的方法(繁体)

相关文章

  • 《简单统计学》,擦亮辨识伪数据的火眼金睛

    文/恰恰天蓝 本书于我:★★★ 关键词:数据、统计、谎言 1 来做个测试,请你判断合理性: - 吃西兰花,可以预防...

  • 统计学防骗手册——《统计数据会说谎》

    统计学防骗手册——《统计数据会说谎》 一本简单易上手的统计学防上当受骗手册。作者的本意并不是指责负责数据的统计学家...

  • bitcoin源码-1-获取密钥对

    关键概念 随机数我们在软件中一般使用的随机数实际上是伪随机数,具有统计学伪随机性。统计学伪随机性指的是在给定的随机...

  • 在统计学的坑里趴了两周

    数据分析今天复习了商业分析的课件,果然要比统计学简单许多啦,前一段时间掉到了统计学的坑了,看了两周的统计学教材,补...

  • 机器学习的“惯性思维”

    机器学习是什么 也被称为统计学习理论 简单来说,就是使用统计学统计出需要的数据,然后取大概率事件为结论 机器学习的...

  • 统计

    自选课程-统计学可汗学院统计学 定义 统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以...

  • Apriori算法

    一. 介绍大体上看,数据挖掘可以视为数据库、机器学习和统计学三者的交叉。简单来说,对数据挖掘而言,数据库提供了数据...

  • 《统计学习方法-第2版》第1章 概论

    1.1 统计学习 统计学习的特点统计学习(statistical learning):是关于计算机基于数据构建概率...

  • 《统计学习方法》笔记(一):统计学习方法概论

    统计学习 统计学习的特点 以计算机及网络为平台 以数据为研究对象 目的是对数据进行预测和分析 以方法为中心(统计学...

  • 《统计学习方法》-第一章(1)

    统计学习概述 统计学习的特点 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科...

网友评论

    本文标题:《简单统计学》,擦亮辨识伪数据的火眼金睛

    本文链接:https://www.haomeiwen.com/subject/issruqtx.html