检验分布情况,在机器学习建模领域的特征分析阶段几乎是必须的。常见的检验分布的方法有图示法和检验法,总结如下。
1. 图示法
1.1 直方图
分箱画个直方图,能够较直观看出分布特点,比如是否对称、是否类似正态等。比如一个典型的直方图
1.2 Q-Q图
使用实际分布与理论分布的分布函数分位数作为X轴和Y轴画出曲线,称之为Q-Q图。如何理论与实际完全相符,该曲线与y=x完全重合。
1.3 P-P图
理论分布和实际分布的累计概率关系图,称为P-P图。同上,若理论与实际完全相符,则该曲线与y=x完全重合。
2. 正态性检验
2.1 Shapiro-Wilk 正态性检验
S-W检验用来检验统计量分布的正态性,即检验样本是否来自正态总体,其适用于小样本的场合(3<=n<=50),流程描述如下:
① 确定统计量: 其中yi是排序后的样本值,ai是对应的系数;
② 其中分母可以看出是的无偏估计值;
③ 分子中的ai则符合以下描述:
得是的最佳线性无偏估计。为此,a的确切值是:
其中 m1,…,mnm1,…,mn 是从一个标准正态分布随机变量上采样的有序独立同分布的统计量的期望值。(大雾,没明白这里的意思)。 V是这些有序统计量的协方差。
④ 根据前三步,就可以算出统计量W的值来了,W最大为1,越接近1代表总体是正态的可能性越大。接下来可以根据显著性水平来判断是拒绝原假设还是不拒绝原假设。稍等一下,还有一个重要问题,W服从什么分布?并不知道~
⑤ 幸运的是,如果我们不深入研究统计学,仅仅是拿来用,那不管是R语言还是Python都有现成的S-W检验工具。比如python可以使用scipy库,可参考https://www.cnblogs.com/webRobot/p/6760839.html
本部分内容参考了https://blog.csdn.net/zzminer/article/details/8858469 ; https://blog.csdn.net/lvsehaiyang1993/article/details/80473265 两篇博客。
2.2 K-S检验
K-S检验用于检验抽取样本所依赖的总体是否服从某个已知的理论分布。其比较的是实际累计分布函数和特定的分布函数。取差值中的最大绝对值差值
① 统计量为
连续时:
离散时:
② 小样本时,D服从Kolmo-gorov分布[捂脸.jpg];大样本时,服从正态分布,标准化后为
K-S检验也都有相应的现成工具。
网友评论