美文网首页
如何用平均数度量集中趋势?

如何用平均数度量集中趋势?

作者: whybask | 来源:发表于2022-07-30 18:54 被阅读0次

以下内容是学习《深入浅出统计学》后整理的笔记


1. 平均数的意义

从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。


2. 何为平均数?

日常生活中,我们常常会把均值当做平均数,其实平均数包含有三类

  1. 均值
  2. 中位数
  3. 众数

我们必须知道每一种平均数的本质,才能因地制宜地选用合适的方案,来度量数据集中的趋势。同时,也能弄清楚别人提供的结论是按照哪种平均数来度量的。

假设我们喜爱运动,且想通过参加健身俱乐部来愉悦自己的身心。一般情况下,我们在加入某个健身俱乐部之前,会考察一下。除了费用、场地环境,可能一个非常重要的考察因素是:该俱乐部成员的平均年龄,因为这能决定我们是否能更好地融入到这个集体。

那么,通过如下的案例来说明均值、中位数、众数的区别。

2.1 均值

骑行俱乐部目前共有15个成员,年龄和数量的对应关系如下:

年龄 19岁 20岁 22岁 24岁 26岁 27岁 28岁
人数 1 2 3 3 3 2 1

那么,该俱乐部成员的年龄均值是:

总年龄=19*1 + 20*2 + 22*3 + 24*3 + 26*3 + 27*2 + 28*1 = 357岁
总人数=1+2+3+3+3+2+1 = 15人
年龄均值=257/15 = 23.8岁

基于以上计算结果,您的年龄越接近23.8岁,那么选择该骑行俱乐部的可能性越大。

用图表理解数据的分布是更直观的办法。上图是该骑行俱乐部的年龄分布情况,符合正态分布情况,也因此,年龄均值23.8处于中间位置。

2.2 中位数

骑行一段时间后,你发现自己的体魄增强了,但全勤参加骑行活动也有点吃不消。你想穿插一些轻松、有氧的运动,好缓解肌肉的疲劳。于是你咨询了一家太极拳俱乐部。

按照惯例,你向某家太极拳俱乐部的销售经理咨询,得知该俱乐部成员的平均年龄是25岁左右。你感觉很适合自己,但到现场报名才发现不对劲:场地上大多数是十几岁的小朋友,再加上几个祖师爷,你没法融入这样的团体。

太极拳俱乐部目前共有15个成员,年龄和数量的对应关系如下:

年龄 14岁 15岁 16岁 17岁 18岁 70岁 80岁 90岁
人数 1 3 4 3 2 0 1 1

那么,该俱乐部成员的年龄均值是:

总年龄=14*1 + 15*3 + 16*4 + 17*3 + 18*2 + 70*0 + 80*1 + 90*1 = 380岁
总人数=1+3+4+3+2+0+1+1 = 15人
年龄均值=257/15 ≈ 25.3岁

如上图,观察太极拳俱乐部成员的年龄分布情况,发现:数据并不是正态分布的,从20岁到80岁之间几乎没有数据,几位祖师爷的年龄在本案例中是异常值(极值),拖了一个长长的尾巴,与整体数据并不十分协调。因此,本案例如果采用均值算法并不能让我们满意。这种情况下,就该平均数中的中位数出场了。

所谓“中位数”,就是一批数据的中间值。如上例:

年龄值按照人数展开、排序后得到的序列如下:
[14, 15, 15, 15, 16, 16, 16, 16, 17, 17, 17, 18, 18, 80, 90]

该序列的中间位置是第8位,对应的值是16。显然,在本案例中,中位数16比均值25.3更好。

2.3 众数

显然,太极拳俱乐部的年龄平均数(中值)16不符合你的期望。于是,你的目光转向了一家游泳俱乐部。有了上次的经验,你向销售顾问咨询时,不仅问了均值还问了中位数,得到的答案是:它们差不多,大概在18~19岁左右。

于是你兴高采烈地来到了游泳馆,都准备报名了,可又一次让你失望了。你发现这个俱乐部是个“亲子”俱乐部,是家长带着孩子玩儿的!

游泳俱乐部目前共有14个成员,年龄和数量的对应关系如下:

年龄 3岁 4岁 5岁 6岁 31岁 33岁 35岁 38岁
人数 1 3 2 1 1 3 2 1

该俱乐部成员的年龄均值是:

总年龄=3*1 + 4*3 + 5*2 + 6*1 + 31*1 + 33*3 + 35*2 + 38*1 = 269岁
总人数=1+3+2+1+1+3+2+1 = 14人
年龄均值=269/14 ≈ 19.2岁

该俱乐部成员的年龄中位数是:

年龄值按照人数展开、排序后得到的序列如下:
[3, 4, 4, 4, 5, 5, 6, 31, 33, 33, 33, 35, 35, 38]

该序列的中间位置是第7、8位,对应的值是6、31,
中位数=(6+31)/2 = 18.5岁

但显然,亲子游泳俱乐部中没有一个18~19岁的人,你肯定很难融入到这样的集体中去锻炼身体。

如上图,游泳俱乐部成员的年龄分布情况看起来不像是一批数据,而像是两批数据,即:一批是孩子的、一批是家长的。显然这种情况下,均值、中位数都不适用了。这种情况下,就要用到众数了。

众数是一批数据中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。

在游泳俱乐部中,4岁和33岁出现的频率最高,因此这两个年龄都是众数。也就是说本亲子游泳俱乐部适合33岁左右的家长带上4岁左右的孩子。


3. 关于平均数的总结

3.1 3种平均数的对比

平均数 计算方法 何时使用
均值 μ=∑fx/∑f,x是每个数值,f是每个x的频数。 在数据分布比较对称,且仅显示出一种趋势时使用。
中位数 将所有数据按照升序排列。如果有奇数个数值,则中位数为中间的数值;如果有偶数个数值,则中位数为两个中间数值相加除以2的结果。 在数据集由于异常值而发生偏斜时使用。
众数 选出具有最大频率的一个或几个数值。 当数据可以分为两个或更多组时使用。

3.2 众数能用于类别数据

众数不仅能用于数值型数据,还能用于类别数据。事实上,众数是唯一能用于类别数据的平均数类型。

3.3 啊哈

每个人都会使用最有利于自己意愿的平均数。所以,在听取报告的时候,仅知道平均数的值是不够的,还要了解是哪一种平均数(均值、中位数、众数),以及选用这种平均数是否符合数据集的分布情况。


统计量能够提供信息,但使用不当也能造成误导。


相关文章

  • 如何用平均数度量集中趋势?

    以下内容是学习《深入浅出统计学》后整理的笔记 1. 平均数的意义 从一大堆数字中看出模式和趋势可能颇为不易,而求出...

  • 4.4 统计分析:极差、分位差、方差、标准差

    统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析集中趋势度量 / 离中趋势度量 1-平均数和...

  • 数据分析(二):《深入浅出数据分析》

    第2章 《集中趋势的度量》 求出平均数往往是掌握一大堆数字的的第一步;有了平均数就能找到最具有代表性的数值,得出重...

  • 描述性统计

    集中趋势 反应了数据向其中心值聚集的程度,是对数据一般水平的概括性度量 众数 平均数 中位数 中程数 适用范围 离...

  • 数据分布的描述

    数据的分布描述简单可以概括为集中趋势、离散程度以及分布形状等 一、集中趋势描述的优劣比较 1.平均数 也称为均值,...

  • 深入浅出统计学-2 集中趋势的量度

    2 集中趋势的量度 均值是平均数的一种,中位数、众数也是平均数。 均值(=μ): 计算方法:μ=(∑x)/n x为...

  • 可汗学院-统计学

    【1】 均值 中位数 平均数 均数mean:算数平均数 所有数字总和的平均值 统计学意义:衡量集中趋势 中位数me...

  • 2018-05-11算术平均数,众数和中位数的区别与联系

    算术平均数,众数和中位数的区别与联系 1、联系 (1)平均数、众数和中位数都是描述一组数据集中趋势的量; (2)平...

  • 简单的线性回归

    0、前提介绍 为什么需要统计量? 01、集中趋势衡量 0.1.1均值(平均数,平均值)(mean) {6, 2, ...

  • 统计思维导图与常用公式

    数据的概括性度量 集中趋势的度量众数(mode):一组数据中出现次数最多的变量(EXCEL函数:MODE(numb...

网友评论

      本文标题:如何用平均数度量集中趋势?

      本文链接:https://www.haomeiwen.com/subject/xvokwrtx.html