1. 集中趋势
- 众数(mode):一组数据中出现次数最多的变量值
;
- 中位数:一组数据排序后处于中心位置上的变量值;
- 分位数:对数据排序后进行数量上的拆分,
表示下四分位数,
表示上四分位数,常见的有:
- 四分位数
- 十分位数
- 百分位数
- 平均数:用符号
表示,样本均值用
表示,用来测量定量数据的集中趋势;
- 简单平均数(mean),公式:
- 加权平均数(weighted mean),分组数据均值,公式
;
- 几何平均数(geometric mean),计算平均比率,公式
- 简单平均数(mean),公式:
平均数、中位数和众数的比较:
三者皆代表数据的中心位置,作为数据的代表;
都可以作为集中趋势的度量,
但平均数容易受到极端值的影响
2. 离散趋势
- 异众比率:
用来衡量众数对一组数据的代表程度;
为众数组的频数,
总频数,异众比率越大说明数据分布越分散,异众比率越小,说明数据分布越集中;
-
极差和平均差
- 极差 R = max-min
- 离差
- 平均差(平均绝对离差)
- 分组数据平均差
-
方差和标准差
- 总体方差
-
样本方差
-
标准差:方差的开平方
-
分组数据总体方差
-
分组数据样本方差
-
标准分数:z分数,特性,平均数为0,标准差为1;也就是可知道某个数值相对于平均值的离散程度,(如:距离平均数3个标准差),还可以用来比较两个不同度量的数据离散程度;
- 四分位差(内距或四分间距),用
或者IQR表示:
- 变异系数,又叫离散系数,表示一组数据的离散程度,可以用来比较两组数组的离散程度,值越小,离散程度越小
3. 数据分布的形状
- 偏态(skewness): 是对分布对称性的测度,测量偏态的统计量是偏态系数sk
分组数据偏态系数
分组均值
|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称,无偏态
sk>0, 右偏态, sk <0 ,左偏态
- 峰态(kurtosis): 是对分布平峰或尖峰的测度,测量峰态的统计量是峰态系数 K
分组数据峰态系数
标准正态分布的峰度系数设为0,
通过与标准正态分布相比较,
K>0为尖峰分布,K<0 为扁平分布
4. 数据分布特征总结
切比雪夫法则
- 可能有很少的测量值落在平均值的1个标准差范围内;
- 所有数据中,至少有3/4(或75%)的数据位于平均数的2个标准差范围内;
- 所有数据中,至少有8/9(或88.9%)的数据位于平均数的3个标准差范围内;
- 所有数据中,至少有24/25(或96%)的数据位于平均数的5个标准差范围内。通常,对于任意大于1的数k,至少有
的测量值落在k个标准差范围内;
经验法则
适用条件:数据对称分布
- 大约68%的测量值位于均值的一个标准差范围内;
- 大约95%的测量值位于均值的2个标准差范围内;
- 几乎所有的测量值位于均值的3个标准差范围内;

网友评论