1.平均值:算术平均数,描述平均水平。
2.中位数:从小到大排列数据,取中间位置的数据,描述中等水平。
3.众数:数据中出现最多的数,描述一般水平。
众数只有在数据量很多的时候才有意义,当数据量较少时,不宜使用众数。当一组数据的分布偏斜程度较大时(信贷数据),使用中位数是一个较好的选择。当数据呈对称分布时,适合使用平均数,当数据为偏态分布时,特别是偏斜程度较大时,选择中位数或众数的代表性要比平均数好。
4.方差:数据在整体变化过程中偏离平均值的幅度,描述数据的离散程度
image.png image.png5.标准差:平均值和标准差计算出来的,标准分=(原始数 - 平均值)/标准差;又叫标准化值。
均方差就是标准差,标准差就是均方差
image.png为什么使用标准差?
与方差相比,使用标准差来表示数据点的离散程度有3个好处:
- 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
- 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
- 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
- 方差和标准差都是对一组(一维)数据进行统计的,反映的是一维数组的离散程度
6.协方差
两个事件独立,协方差等于0,两个事件不相关
image.png
7. pearson相关系数
image.pngreference:
https://www.jianshu.com/p/de4b68edc01b
https://blog.csdn.net/xidiancoder/article/details/71341345
https://blog.csdn.net/zengxiantao1994/article/details/77855644
网友评论