美文网首页千钻公会每天300字日更达人联盟
用正态分布模型分析小概率事件(读书笔记)

用正态分布模型分析小概率事件(读书笔记)

作者: 进化的鱼 | 来源:发表于2020-02-16 08:37 被阅读0次
《模型思维》

原文

均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。事实上我们确实观察到了:最安全的居住地是小城镇,但最不安全的地方也是小城镇;肥胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差异来解释。
如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相当糟糕的政策行为。出自这个原因,美国统计学家霍华德·魏纳(Howard Wainer)将均值标准差公式称为“世界上最危险的方程式”。例如,在20世纪90年代,盖茨基金会和其他一些非营利机构以“最好的学校都是小学校”为依据,倡导将大学校分拆为小学校。

思考

在调查研究中,我们必须注意这一事实:样本数量的多少,和抽样结果中极端情况的出现概率相关。

因为大的总体计算出的标准差,要比小的总体计算出的的标准差低得多。同样一件极端事件,在大数量样本中需要跨越更多的西格玛,所以概率更低。

由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。

我们经常被这样的类似情况迷惑,比如长寿村

我们不完全否认外在因素对寿命的影响,例如空气质量,植被水源,生活习惯等。但我们同样需要考虑到,“村庄”这个小数量级的样本,本来就容易出现更好或更坏的极端情况。

我们甚至可以推断,和长寿村对应,一定有一个村庄是“短命村”。

我们首先应该看到,这种现象是一个概率问题,才能更理性客观的去分析其他因素对长寿的影响。才能避免“长寿村的月亮都比我们的圆”,这样的重大误解。

我有这种问题:很容易被标题党使用的吸引眼球的数据吸引,忍不住点开。但往往带着猎奇心理看到的事情,不过是一件小样本中的小概率事件。

知道了“均值标准差”的概念,能让我更理性的看待极端数据和现象。

它们出现的概率和样本数量相关,所以即便是真实的数据,也会传递给我们错误的“信息”。

其实严格来说信息不存在对错,是我们的理解,把信息扭曲了。

相关文章

网友评论

    本文标题:用正态分布模型分析小概率事件(读书笔记)

    本文链接:https://www.haomeiwen.com/subject/evtpfhtx.html