描述性统计分析之集中趋势分析

作者: 金鱼鱼金 | 来源:发表于2017-12-17 22:04 被阅读98次

第二周：描述性数据分析实践
描述性统计分析之集中趋势分析
数据分析基础
描述性统计分析之离中趋势分析
描述性统计分析的应用——基于描述性统计分析识别优质股票
描述统计
流程整理
数据分析的统计学基础有哪些？收藏这一篇文章足够了
SPSS基本统计分析
R action 7

描述性统计分析是指通过图表或数学的方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性分析主要有三大类：

1、集中趋势分析（平均数、中数、众数）

2、离中趋势分析（全距、四分差、平均差、方差、标准差）

3、相关分析（研究现象之间是否存在某种依存关系，并对具体有依存关系的现象进行其相关方向及相关程度的研究「相关系数=》回归方程」）

先讲第一类，集中趋势分析。

1、平均数

平均数是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和在除以这组数据的个数。它反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中，平均数和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

平均数是统计中的一个重要概念。小学数学里所讲的平均数一般是指算术平均数，也就是一组数据的和除以这组数据的个数所得的商。在统计中算术平均数常用于表示统计对象的一般水平，它是描述数据集中位置的一个统计量。既可以用它来反映一组数据的一般情况、和平均水平，也可以用它进行不同组数据的比较，以看出组与组之间的差别。用平均数表示一组数据的情况，有直观、简明的特点，所以在日常生活中经常用到，如平均速度、平均身高、平均产量、平均成绩等等。

（1）算术平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

把n个数的总和除以n，所得的商叫做这n个数的算术平均数。

公式：

（2）几何平均数

n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同，几何平均数分为加权和不加权之分。

公式：

（3）加权平均数

加权平均数是不同比重数据的平均数，加权平均数就是把原始数据按照合理的比例来计算，若 n个数中，x1出现f1次，x2出现f2次，…，xk出现fk次，那么

叫做x1、x2、…、xk的加权平均数。f1、f2、…、fk是x1、x2、…、xk的权。

公式：

其中

f1、f2、…、fk叫做权(weight)。平均数是加权平均数的一种特殊情况，即各项的权相等时，加权平均数就是算术平均数。

2、中数

中数是按顺序排列在一起的一组数据中居于中间位置的数，即在这组数据中，有一半的数据比它大，有一半的数据比它小。

对一组数进行排序后，正中间的一个数（数字个数为奇数）；或者中间两个数的平均数（数字个数为偶数）。这个数可能是数据中的某一个，也可能根本不是原有的数。中数是集中量数的一种，它能描述一组数据的典型情况。中数又名中位数。

3、众数

众数是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。用M表示。理性理解：简单的说，就是一组数据中占比例最多的那个数。

平均数非常明显的优点之一是，它能够利用所有数据的特征，而且比较好算。另外，在数学上，平均数是使误差平方和达到最小的统计量，也就是说利用平均数代表数据，可以使二次损失最小。因此，平均数在数学中是一个常用的统计量。但是平均数也有不足之处，正是因为它利用了所有数据的信息，平均数容易受极端数据的影响。例如，在一个单位里，如果经理和副经理工资特别高，就会使得这个单位所有成员工资的平均水平也表现得很高，但事实上，除去经理和副经理之外，剩余所有人的平均工资并不是很高。这时，中位数和众数可能是刻画这个单位所有人员工资平均水平更合理的统计量。中位数和众数这两个统计量的特点都是能够避免极端数据，但缺点是没有完全利用数据所反映出来的信息。由于各个统计量有各自的特征，所以需要我们根据实际问题来选择合适的统计量。

当然，出现极端数据不一定用中位数，一般，统计上有一个方法，就要认为这个数据不是来源于这个总体的，因而把这个数据去掉。比如大家熟悉的跳水比赛评分，为什么要去掉一个最高分、一个最低分呢，就认为这两个分不是来源于这个总体，不能代表裁判的鉴赏力。于是去掉以后再求剩下数据的平均数。需要指出的是，我们处理的数据，大部分是对称的数据，数据符合或者近似符合正态分布。这时候，均值（平均数）、中位数和众数是一样的。只有在数据分布偏态（不对称）的情况下，才会出现均值、中位数和众数的区别。所以说，如果是正态的话，用哪个统计量都行。如果偏态的情况特别严重的话，可以用中位数。

除了需要刻画平均水平的统计量，统计中还有刻画数据波动情况的统计量。比如，平均数同样是5，它所代表的数据可能是1、3、5、7、9，可能是4、4.5、5、5.5、6。也就是说5所代表的不同组数据的波动情况是不一样的。怎样刻画数据的波动情况呢？很自然的想法就是用最大值减最小值，即求一组数据的极差。数学中还有方差、标准差等许多用来刻画数据特征的统计量。