相对位置的度量:标准分数(标准化的值)
- 它是对某一个值在一组数据中相对位置的度量
- 可以用来判断一组数据中的离群点(比如3西塔准则)
- 计算公式为
, 其中s为标准差
当然标准差的作用大家也明白了3-sigma法则又称经验法则,加减一倍标准差,数据分布的概率,两倍标准差,三倍标准差。。。但是这个前提条件是正太分布的,以均值为对称的对称数据。
切比雪夫不等式
- 对于对称数据我们可以用经验法则,但是对于不是对称的数据呢,我们可以使用切比雪夫不等式,它对任何分布形状的数据都适用
- 切比雪夫不等式提供的是概率下界,也就是说它指出“所占的比例至少是多少”
- 对于任何分布形态的数据,根据切比雪夫不等式,至少有
的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数
所以对于k=2,3,4的意义,当k为2时,至少有75%的数据落在平均数加减2倍标准差内,当k为3时,至少有89%的数据落在平均数加减3个标准差的范围之内。
相对离散程度:离散系数
- 标准差与其相应的均值之比
- 对数据相对离散程度的测度
- 消除数据水平高低和计量单位的影响
- 用于对不同组别数据离散程度的比较
- 计算公式
偏态与峰度的度量
数据分布的偏斜程度的测度
- 偏态系数=0为对称分布
- 偏态系数>0为右偏分布
- 偏态系数<0为左偏分布
- 偏态系数大于1或小于-1被称为高度偏态分布,偏态系数在0.5~1或-1到-0.5之间则任务是中等偏态分布,偏态系数越接近0,偏斜程度越低
峰度系数
- 数据分布扁平程度的测度
- 峰度系数=0扁平峰度适中
- 峰度系数<0为扁平分布
- 峰度系数>0为尖峰分布
- 峰度系数同样去了量纲
网友评论