统计学中,最基本和最常见的分支是所谓的描述性统计学(descriptive statistics ):把一组数据归纳为能描述或用于总结数据集本身的若干指标。
比如:
一家公司所有员工的平均收入
一个班级的高考分数范围
股票投资组合的回报误差
一个团队中球员的平均身高
有人会问,描述统计不过就是总结一下数据,这么简单的事情也会涉及陷阱吗?
事实上,当然有。
在前面的系列中,即使是简单加法都会涉及陷阱。
而描述统计这里会有稍微复杂一点的均值或标准差的统计量,在结构上已经扩大了犯错的可能性空间。
在描述统计中,会讨论到数据集的集中趋势,这里涉及均值,中值等统计量。
最常见的错误倒还不是在计算这些指标时发生的,而且这些公式也真的不难。
而集中趋势指标带来的真正困难在于:当向人们展示这些指标时候,如均值,总会有人认为---既然均值是这样,那应该这个数据集里面的数值都这样吧。
当然,这是一种非常懒惰的想法,而懒惰就容易掉到坑里,这里举一个体育界的例子。
例子来了
美国职业橄榄球联盟的男性球员平均数据如下:
年龄25岁,身高约6英尺2英寸,体重244.7磅,年收入150万美元,身穿51号球衣,全名有13个字符(包括空格、连字符等)。
这些陈述是所谓的字面上的数据事实,来自于2018年北
美职业美式足球联盟32支球队的季前赛名单上有2874名现役球员的信息。
看到这些数据,有人可能会认为:随便找一个球员,这些指标都会非常接近于所提供的这些数据的平均值,误差应该不会太大。
说到这是不是感到,离坑不远了。此时如果有个一个9英尺3英寸高的球员(50%的偏离均值),会感到惊讶么?
有些人真的会,但其实不必。显然,这里面有先入为主的东西。
对于以上的6个属性作柱状图,如下所示。
可见,形状各异,可以试着猜猜每个图应该是什么属性。
后边会把各图所指的属性全部给出。
现在呢,请大家做以下图这道连线题。
希望能从这些不同的数据分布图形中,想一想中心趋势对于全体数据的代表性是否只有一种。
比如A图,左边开始偏小,之后整体数据基本维持在同一水平,到右端,数据密度不见衰减,却突然间没了数据,这应该是什么属性呢?
再看看E,居然有一个中间低点,这又可能是什么呢?不急,大家慢慢猜。
好的,一般10分钟可以出答案了,如下图所示。
请根据答案好好思考,哪些因素会影响答案,是常识?背景知识?量化估计?还是其他。
A.均匀分布:球衣号码
每逢答案一出来,就有一种很合理的感觉,对吧!?
我们来看下:在完全均匀分布中,随机抽取任何值,概率一样。
当然,来自现实世界的经验数据集几乎从不完美地遵循一个分布。但是从下图可以看到,整体还是显示出很高的一致性来,除了左边第一个,不过仅仅约占5%的球员数量。
该数据集的球衣号码的均值是51.
这里有个背景,就是球衣号码就在1到99之间,没有100号的,
这也就是右端最终突然停止的原因。
那么在这种具体的数据分布的背景下,随便抽取一个值,或者多抽取几个,真的又会有人可以如此猜测,这些值应该与均值差别不大;于是大胆假设,此时的均值应该可以代表却大部分数据状况了吧!
至此,已经完全入坑。
然而,有趣的事情来了。在2018年季前赛期间,2874名现役球员中,只有27人的球衣号码正好是51号,
这意味着用均值只有不到1%的机会猜对任意球员的球衣号码。
有个小知识点,根据官方规则,只有处于“中锋”位置的球员(在进攻线中间的球员,将球传给四分卫)才可以是这样的身材。
去除离群值,还可以发现,不论猜哪个码,都有1%的正确率。
2018年全联盟球员名单中出现频率最高的球衣号码是38号,如果你猜38号为均值,也不过1.347%的正确率而已。
对这组数据再做一个柱状图,把每组大小改为1,如下图所示:
对于统计学小白而已,最起码应该有这样的认识:
当遇到一个均匀分布时,要看清最小值和最大值,而均值和中位数都位于范围的中心,此外再无其他额外信息。
但51号球衣就是NFL球员穿的“典型”球衣吗?这当然是在可能的范围内,不会说这是不典型的,就像球衣1号。
但使用“典型”一词并不能提供什么有效信息,毕竟,每个队的中锋也并不多。
下一篇,我们来讲第二个分布,也就是统计学上最著名的正态分布。
网友评论