美文网首页
如何用平均数度量集中趋势?

如何用平均数度量集中趋势?

作者: whybask | 来源:发表于2022-07-30 18:54 被阅读0次

    以下内容是学习《深入浅出统计学》后整理的笔记


    1. 平均数的意义

    从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。


    2. 何为平均数?

    日常生活中,我们常常会把均值当做平均数,其实平均数包含有三类

    1. 均值
    2. 中位数
    3. 众数

    我们必须知道每一种平均数的本质,才能因地制宜地选用合适的方案,来度量数据集中的趋势。同时,也能弄清楚别人提供的结论是按照哪种平均数来度量的。

    假设我们喜爱运动,且想通过参加健身俱乐部来愉悦自己的身心。一般情况下,我们在加入某个健身俱乐部之前,会考察一下。除了费用、场地环境,可能一个非常重要的考察因素是:该俱乐部成员的平均年龄,因为这能决定我们是否能更好地融入到这个集体。

    那么,通过如下的案例来说明均值、中位数、众数的区别。

    2.1 均值

    骑行俱乐部目前共有15个成员,年龄和数量的对应关系如下:

    年龄 19岁 20岁 22岁 24岁 26岁 27岁 28岁
    人数 1 2 3 3 3 2 1

    那么,该俱乐部成员的年龄均值是:

    总年龄=19*1 + 20*2 + 22*3 + 24*3 + 26*3 + 27*2 + 28*1 = 357岁
    总人数=1+2+3+3+3+2+1 = 15人
    年龄均值=257/15 = 23.8岁
    

    基于以上计算结果,您的年龄越接近23.8岁,那么选择该骑行俱乐部的可能性越大。

    用图表理解数据的分布是更直观的办法。上图是该骑行俱乐部的年龄分布情况,符合正态分布情况,也因此,年龄均值23.8处于中间位置。

    2.2 中位数

    骑行一段时间后,你发现自己的体魄增强了,但全勤参加骑行活动也有点吃不消。你想穿插一些轻松、有氧的运动,好缓解肌肉的疲劳。于是你咨询了一家太极拳俱乐部。

    按照惯例,你向某家太极拳俱乐部的销售经理咨询,得知该俱乐部成员的平均年龄是25岁左右。你感觉很适合自己,但到现场报名才发现不对劲:场地上大多数是十几岁的小朋友,再加上几个祖师爷,你没法融入这样的团体。

    太极拳俱乐部目前共有15个成员,年龄和数量的对应关系如下:

    年龄 14岁 15岁 16岁 17岁 18岁 70岁 80岁 90岁
    人数 1 3 4 3 2 0 1 1

    那么,该俱乐部成员的年龄均值是:

    总年龄=14*1 + 15*3 + 16*4 + 17*3 + 18*2 + 70*0 + 80*1 + 90*1 = 380岁
    总人数=1+3+4+3+2+0+1+1 = 15人
    年龄均值=257/15 ≈ 25.3岁
    

    如上图,观察太极拳俱乐部成员的年龄分布情况,发现:数据并不是正态分布的,从20岁到80岁之间几乎没有数据,几位祖师爷的年龄在本案例中是异常值(极值),拖了一个长长的尾巴,与整体数据并不十分协调。因此,本案例如果采用均值算法并不能让我们满意。这种情况下,就该平均数中的中位数出场了。

    所谓“中位数”,就是一批数据的中间值。如上例:

    年龄值按照人数展开、排序后得到的序列如下:
    [14, 15, 15, 15, 16, 16, 16, 16, 17, 17, 17, 18, 18, 80, 90]
    

    该序列的中间位置是第8位,对应的值是16。显然,在本案例中,中位数16比均值25.3更好。

    2.3 众数

    显然,太极拳俱乐部的年龄平均数(中值)16不符合你的期望。于是,你的目光转向了一家游泳俱乐部。有了上次的经验,你向销售顾问咨询时,不仅问了均值还问了中位数,得到的答案是:它们差不多,大概在18~19岁左右。

    于是你兴高采烈地来到了游泳馆,都准备报名了,可又一次让你失望了。你发现这个俱乐部是个“亲子”俱乐部,是家长带着孩子玩儿的!

    游泳俱乐部目前共有14个成员,年龄和数量的对应关系如下:

    年龄 3岁 4岁 5岁 6岁 31岁 33岁 35岁 38岁
    人数 1 3 2 1 1 3 2 1

    该俱乐部成员的年龄均值是:

    总年龄=3*1 + 4*3 + 5*2 + 6*1 + 31*1 + 33*3 + 35*2 + 38*1 = 269岁
    总人数=1+3+2+1+1+3+2+1 = 14人
    年龄均值=269/14 ≈ 19.2岁
    

    该俱乐部成员的年龄中位数是:

    年龄值按照人数展开、排序后得到的序列如下:
    [3, 4, 4, 4, 5, 5, 6, 31, 33, 33, 33, 35, 35, 38]
    
    该序列的中间位置是第7、8位,对应的值是6、31,
    中位数=(6+31)/2 = 18.5岁
    

    但显然,亲子游泳俱乐部中没有一个18~19岁的人,你肯定很难融入到这样的集体中去锻炼身体。

    如上图,游泳俱乐部成员的年龄分布情况看起来不像是一批数据,而像是两批数据,即:一批是孩子的、一批是家长的。显然这种情况下,均值、中位数都不适用了。这种情况下,就要用到众数了。

    众数是一批数据中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。

    在游泳俱乐部中,4岁和33岁出现的频率最高,因此这两个年龄都是众数。也就是说本亲子游泳俱乐部适合33岁左右的家长带上4岁左右的孩子。


    3. 关于平均数的总结

    3.1 3种平均数的对比

    平均数 计算方法 何时使用
    均值 μ=∑fx/∑f,x是每个数值,f是每个x的频数。 在数据分布比较对称,且仅显示出一种趋势时使用。
    中位数 将所有数据按照升序排列。如果有奇数个数值,则中位数为中间的数值;如果有偶数个数值,则中位数为两个中间数值相加除以2的结果。 在数据集由于异常值而发生偏斜时使用。
    众数 选出具有最大频率的一个或几个数值。 当数据可以分为两个或更多组时使用。

    3.2 众数能用于类别数据

    众数不仅能用于数值型数据,还能用于类别数据。事实上,众数是唯一能用于类别数据的平均数类型。

    3.3 啊哈

    每个人都会使用最有利于自己意愿的平均数。所以,在听取报告的时候,仅知道平均数的值是不够的,还要了解是哪一种平均数(均值、中位数、众数),以及选用这种平均数是否符合数据集的分布情况。


    统计量能够提供信息,但使用不当也能造成误导。


    相关文章

      网友评论

          本文标题:如何用平均数度量集中趋势?

          本文链接:https://www.haomeiwen.com/subject/xvokwrtx.html