什么情况下,从小样本中妄下结论其实是很不靠谱的?
美国医学考试委员会著名研究员宾夕法尼亚大学统计学兼职教授霍华德•魏纳重新定义了法国著名数学家亚伯拉罕•棣•美弗的“最危险公式”。魏纳认为平均值的变动幅度和样本大小成反比。在涉及运气的活动领域,样本量小,得出的结果离实际平均值相差较远,而样本量较大,结果越接近实际平均值。
我们可以将平均值以及其变动幅度看做钟型曲线(又称正态曲线,它是一根两端低中间高的曲线。它首先被数学家用来描述科学观察中量度与误差两者的分布)。样本量大,结果就接近钟顶(均值)。从钟顶往下,误差结果对称分布。标准偏差是用于衡量数据偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越小,反之亦然。钟型曲线越集中,说明标准偏差越小;钟型曲线越分散,说明标准偏差越大。
当运气在活动中有很大影响,钟型曲线的标准偏差就越大,样本体量小根本不能体现活动的实际情况。魏纳之所以把这当做“最危险公式”,是因为意识不到这一点,人们往往在很多领域都会处处碰壁,酿成惨重的后果。
在美国,人们患上了肾癌的概率图显示,偏远、人口少的中西部、西部和南部,人们患肾癌率最低。而另一幅图却显示,患肾癌的概率最高的区域依然是这些地方。这就是亚伯拉罕•棣•美弗公式在作怪,越靠近实力—运气连续体图的左边,小样本事件的变化幅度越大,完全背道而驰的结果就会出现。为了接着找出各个城市万人中患肾癌人数调查结果。调查清楚地显示,大城市患肾癌的概率分布集中,而小城市则呈两极化。肾癌率最高和最低的小城市在这个例子中。人口少就等同于样本小,因此结果的变动幅度就很大。
不懂得亚伯拉罕•棣•美弗的追公式,人们就会在政策制定上犯很大的错误。
网友评论