美文网首页工作生活
6.7 总体分布的检验

6.7 总体分布的检验

作者: 迪丽娜扎 | 来源:发表于2019-07-03 00:11 被阅读0次

检验分布情况,在机器学习建模领域的特征分析阶段几乎是必须的。常见的检验分布的方法有图示法和检验法,总结如下。

1. 图示法

1.1 直方图

分箱画个直方图,能够较直观看出分布特点,比如是否对称、是否类似正态等。比如一个典型的直方图

1.2 Q-Q图

使用实际分布与理论分布的分布函数分位数作为X轴和Y轴画出曲线,称之为Q-Q图。如何理论与实际完全相符,该曲线与y=x完全重合。

1.3 P-P图

理论分布和实际分布的累计概率关系图,称为P-P图。同上,若理论与实际完全相符,则该曲线与y=x完全重合。

2. 正态性检验

2.1 Shapiro-Wilk 正态性检验

S-W检验用来检验统计量分布的正态性,即检验样本是否来自正态总体,其适用于小样本的场合(3<=n<=50),流程描述如下:

① 确定统计量:W=\frac{\sum{a_{i}y_i^2}}{\sum{(y_i -\bar{y})^2}} 其中yi是排序后的样本值,ai是对应的系数;

② 其中分母\sum{(y_i -\bar{y})^2}可以看出是(n-1)\sigma ^2的无偏估计值;

③ 分子中的ai则符合以下描述:

\sum{a_{i}y_i^2}(n-1)\sigma ^2的最佳线性无偏估计。为此,a的确切值是:

其中 m1,…,mnm1,…,mn 是从一个标准正态分布随机变量上采样的有序独立同分布的统计量的期望值。(大雾,没明白这里的意思)。 V是这些有序统计量的协方差。

④ 根据前三步,就可以算出统计量W的值来了,W最大为1,越接近1代表总体是正态的可能性越大。接下来可以根据显著性水平来判断是拒绝原假设还是不拒绝原假设。稍等一下,还有一个重要问题,W服从什么分布?并不知道~

⑤ 幸运的是,如果我们不深入研究统计学,仅仅是拿来用,那不管是R语言还是Python都有现成的S-W检验工具。比如python可以使用scipy库,可参考https://www.cnblogs.com/webRobot/p/6760839.html

本部分内容参考了https://blog.csdn.net/zzminer/article/details/8858469 ; https://blog.csdn.net/lvsehaiyang1993/article/details/80473265 两篇博客。

2.2 K-S检验

K-S检验用于检验抽取样本所依赖的总体是否服从某个已知的理论分布。其比较的是实际累计分布函数特定的分布函数。取差值中的最大绝对值差值

① 统计量为

连续时:D=max(|S(x_i)-F(x_i)|)

离散时:D=max(|S(x_i)-F(x_i)|,|S(x_{i-1})-F(x_i)|)

② 小样本时,D服从Kolmo-gorov分布[捂脸.jpg];大样本时,服从正态分布,标准化后为\sqrt{n}D

K-S检验也都有相应的现成工具。

相关文章

  • 6.7 总体分布的检验

    检验分布情况,在机器学习建模领域的特征分析阶段几乎是必须的。常见的检验分布的方法有图示法和检验法,总结如下。 1....

  • 非参数检验

    t检验属于参数检验,参数检验需要假设总体的分布 非参数检验并不依赖于总体的分布 单样本t检验和成对样本的t检验对应...

  • 数据分析入门-假设检验

    参数检验 ** U检验**: 前提:在正太分布的样本均值u0和总体方差已知的情况下,双侧检验问题检验总体均值u=u...

  • 单样本非参数检验

    总体分布的卡方检验是一种对总体分布进行检验的极为典型的非参数检验方法,可以解决一些问题,如医学研究心脏病猝死人数与...

  • 统计分析方法总结

    参数检验 先决条件:已知总体服从正态分布(先决条件),通常总体方差也未知,推断总体均值 非参数检验 注:1. 处理...

  • t-检验与f-检验

    卡方检验 又称Chi-Squared Test. 属于非参检验,没有具体参数和总体正态分布的假设,也成为自由分布检...

  • 参数估计与假设检验

    ①标准误 ②标准正态分布 ③t分布 ④参数估计 总体率的估计 ⑤假设检验 假设检验是假定H0成立的条件下计算检验统...

  • SPSSAU教程08:非参数检验指标解读

    非参数检验用于研究定类数据与定量数据之间的关系情况,是指不考虑总体的参数和总体分布类型,利用样本数据的总体分布形态...

  • 17-假设检验之Z检验

    利用观测数据判断总体是否服从正态分布的检验称为正态性检验(Z检验),它是统计检验中重要的一种拟合优度假设检验。T检...

  • 统计学基础2

    目录 抽样和抽样分布 区间估计 假设检验 抽样和抽样分布 抽样是为了估计总体的参数 样本比率: 样本均值的抽样分布...

网友评论

    本文标题:6.7 总体分布的检验

    本文链接:https://www.haomeiwen.com/subject/fukthctx.html