大凡说起数据分析,很多人就会想起平均数。为什么平均数如此深入人心?它的重要性又是什么呢?
从释义上讲,汉字的“平均”有按份儿均匀计算的含义。统计学上的平均数其实有好几种不同的方式(大家应该能记得什么叫“统计口径”吧),我们耳熟能详的通常是“算术平均数”。举个例子,如果有4个系统支持工程师,甲乙丙丁,每个人的每天的解决问题的数量如下表。
系统工程师 | 每天解决问题的数量 |
---|---|
甲 | 17 |
乙 | 23 |
丙 | 19 |
丁 | 27 |
表1 系统工程师小分队每日解决问题的数量(分布)
根据上表,这个小小系统支持团队的平均每天每人的解决问题数量是:
(17+23+19+27)/(1+1+1+1)= 21.5(个)
因为每个工程师的表现不同,我们不能单纯拿出某个工程师来代表这个团队的表现。于是,平均数就是一个非常好的用来描述“团队”的指标。如果用统计术语来说,甲工程师的17个问题是“个体”的特征,21.5个问题则是“整体”的特征。平均数最直观的一个作用就是来对某个数据集的“整体情况”做一个表述。
上例中,每个工程师解答的问题是同质同权的,也就是说每个工程师在解决问题的过程中的“权重”是一样的,并不存在甲解决的问题价值更加大一点。但实际情况通常会更加复杂,假定问题因有难易不同,给客户带来的价值也不同。那么我们怎么评价这个团队的一般表现?因为这次不同问题的价值不同,也就是说“权重”不同了。在IT的世界里,按常规,我们一般把问题分成4个等级。为方便起见,价值就是1、2、3、4。
1 | 2 | 3 | 4 | 小计 | |
---|---|---|---|---|---|
甲 | 1 | 1 | 3 | 12 | 17 |
乙 | 4 | 7 | 5 | 7 | 23 |
丙 | 11 | 0 | 0 | 8 | 19 |
丁 | 20 | 2 | 4 | 1 | 27 |
表2 系统工程师小分队解决问题数量按不同价值(分布)
有了权重再来看看甲和丁的表现:
甲:1x1+1x2+3x3+12x4 = 60
丁:20x1+2x2+4x3+1x4 = 40
虽然,丁每天要多解10个问题,但是从价值上来说竟然还是甲要多出20分。凭直觉就能够猜出来甲是经验丰富的老工程师经常是被要求解决一些棘手的问题,而丁很可能是刚刚入行的新手,主要处理一些比较简单但多发的问题。
插播一句。这个就是通过数字(或者更精确地说,用统计)来理解现实世界的一个例子,以后还会常常提到。毕竟,不解决实际问题,思想和技术就没有什么意义了。
那么,在有权重下的平均数,就是加权平均数。沿用表2,加权平均数为:
乙:4x1+7x2+5x3+7x4 = 61
丙:11x1+0x2+0x3+8x4 = 43
(60+61+43+40)/(1+1+1+1)= 51(分)
注意哦,这里单位改成了“分”,因为算术平均数是同质平均,只要单纯计算即可,而加权平均是有权重的,有时候要通过“某种衡量”来表达“量化”。
通过这两个平均数,可以看到同一个小分队,如果从不同的角度去了解情况,会得出一些完全不同的结论。单纯看解决问题的算术平均数,那么甲就是个典型的拖后腿的家伙了。再细致一些,了解到了不同问题的本质不同时,甲作为有经验的工程师的价值就体现出来了。
插播第二句。现实中,理解事情本身很重要,正确的理解才能有效利用数字。当然,利用统计来检验某些说法的有效性也是很有意思的话题。
平均数作为一个统计指标,它更深层次的意义还体现在“回归”上。这个话题有点复杂需要逐渐展开。
光有平均数是不是可以?当然不行,不然大家怎么老觉得自己“被平均”了呢?下周我们来聊聊方差与标准差。
网友评论