一. 统计学概述
统计学可以分为:
-
描述统计学
使用特定的数字或图表来体现数据的集中程度和离散程度。例: 每次考试的平均分,最高分,各个分段的人数等,也是属于描述性统计学的范围。 -
推断统计学
根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体合格率的一个估计。
统计学应用:
统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前比较热门的应用:经济学,医学,心理学等。
二. 集中趋势
例: 对于 1 2 3 4 5 ,你会使用哪个数字作为代表 ?
对于一组数据,如果只允许一个数字去代表这组数据,那么这个数字应该如何选择? - 选择数据的中心,即反应数据集中趋势的统计量。
-
均值:
算数平均值,描述平均水平 -
中位数:
将数据按照大小排列后位于正中间的数描述,描述中等水平 -
众数:
数据中出现最多的数,描述一般水平
2.1 均值
计算公式:

例: 某次数学考试中,小组A与小组B的成员的成绩分别如下:
A: 70,85,62,98,92
B: 82,87,95,80,83
分别求出两组的平均分,并比较两组成绩。
组A: (70+85+62+98+92)/5 = 81.4
组B: (82+87+95+80+83)/5 = 85.4
组B的平均分比组A高,就是组B的总体成绩比组A高。
2.2 中位数
顾名思义,中位数就是将数据按大小顺序(从大到小或从小到大都可以)排列后处于中间位置的数。
例1: 58,32,46,92,73,88,23
- 先排序 23,32,46,58,73,88,92
- 找到处于中间位置数 58,有3个数比58大,有3个数比58小
例2:在例1的基础上, 多加一个数63,情况有何变化?
- 先排序 23,32,46,58,63,73,88,92
- 找到处于中间位置数 58 和 63 两个
- 若处于中间位置的数据有两个(也就是数据的总数是偶数的时候),中位数为中间两个数的算术平均值: (58+63)/2 = 60.5
原始数据中,有4个数比60.5 大,有4个数比60.5小
2.3 众数
众数是数据中出现次数最多的数(所占比例最大的数)
一组数据中,可能会存在多个众数,也可能不存在众数。
例:
1 2 2 3 3 中的众数是 2 和 3
1 2 3 4 5 中没有众数
众数不仅适用于数值型数据,对于非数值型数据也同样适用
{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没什么均值中位数可言,但是存在一个众数-橙。

2.4 均值、中位数、众数比较
优点 | 缺点 | |
---|---|---|
均值 | 充分利用所有数据,适用性强 | 容易受到极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 当数据具有明显的集中趋势时,代表性能好;不受极端值影响 | 缺乏唯一性:可能有一个,有两个,也可能一个都没有 |

例:
两个公司的员工及薪资构成如下:
A: 经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500;
B: 经理1名,月薪20000;高级员工,15名,月薪11000;普通员工20名,月薪9000;
请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?
-
均值:
A (1000000 + 1510000 + 207500)/36 = 11111.1
B (20000 + 2011000 + 159000)/36 = 10416.67 -
中位数:
A 7500
B 11000 -
众数:
A 7500
B 11000
若从均值去考虑,明显地A公司的平均月薪比B公司搞,但是A公司存在一个极端值,大大拉高了A公司的均值,这时只从均值考虑明显不太科学。
从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。
三. 离散程度与方差及标准差
3.1 离散程度的描述
比较下面两组数据:
A ---- 1 2 5 8 9
B ---- 3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量

极差: 最大值 - 最小值,简单地描述数据的范围大小
A: 9 - 1 = 8;
B: 7 - 4 = 3
同样的5个数,A的极差比B的极差要大,所以也比B的要分散
但是只用极差这个衡量离散程度也存在不足
如: A ---- 1 2 5 8 9 B ---- 1 4 5 6 9
3.2 方差
在统计学上,更常使用方差来描述数据的离散程度----数据离中心越远越离散

其中表示数据集中第i个数据的值,μ表示数据集的均值
A---- 1 2 5 8 9
B---- 3 4 5 6 7

再对比数据A ---- 1 2 5 8 9 B----1 4 5 6 9的方差


样本方差和总体方差:

3.3 标准差
对于数据 1 2 5 8 9,前面求得这一组数据的方差是10。将10与原数据做比较,可以看出10比原数据都大,是否说明这一组数据十分离散呢??
但是方差与原数据的单位是不一样的,这样比较是无意义的。如果原数据的单位是m的话,那么方差的单位是.
为了保持单位的一致性,我们引入一个新的统计量----标准差
标注差:,有效地避免了因单位平方而引起的度量问题
A---- 1 2 5 8 9
B---- 3 4 5 6 7
与方差一样,标准差的值越大,表示数据越分散
四. 图形化表示
某班40个学生某次数学测试成绩如下:
63,84,91,53,69,81,61,69,91,78,75,81,80,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77
对于这一组数字,你能看出什么呢?
或许先算一算,均值是77.05,标准差是10.8414。
在对了这两个数字后,你对这组数字又有了怎样的认识,对于该班这次的数学检测成绩如何评价呢??
原始数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势和离散程度,让人难以对数据产生直观地影响,这时需要用到图表!
4.1 直方图


4.2 箱线图



4.3 茎叶图

4.4 线图

4.5 柱形图

柱形图和直方图的对比:

4.6 饼图

网友评论