统计学思考导论读书笔记-样本比较（二）

作者: 浮浮尘尘 | 来源:发表于2016-09-04 15:38 被阅读87次

统计学思考导论读书笔记-样本比较（二）
统计学思考导论读书笔记-样本比较（一）
Day3—大众抵制科学心理学的原因是什么？
《数据挖掘导论》学习
合页损失函数
浅谈协方差矩阵
《商务与经济统计》笔记（三）
K近邻算法
统计学-导论
统计学导论

4.t检验分析两样本均值

除了按照上面的方法，根据两样本的方差求出两样本的期望之差外，我们还可以引入假设检验对它们的差进行检验。先前在假设性检验的时候就已经讲了H0原假设和H1备择假设，也求出了一个假设的拒绝域。同样的，我们也可以根据假设性检验的相关检验来检验两样本期望，而这里，我们假设H0为E(Xa)=E(Xb)，H1取H0反面，而标准则是以p为0.05为准，如果p小于0.05，我们接受原假设，大于则拒绝。在先前的章节中，我们又介绍了t的相关公式，比如H0为E(X)=0,那么，我们T的计算公式则为：

在R语言里，我们常用qt()函数计算t分布的分位数，比如，qt(0.975,n-1)计算的就是t分布当中自由度为n，分位为97.5%的分位数，也可表示成事件{|T|>qt(0.975,n-1)}，而P({|T|>t})就是表示R里通常看到的p值。同样的，假设H0：E(Xa)-E(Xb)=0，那么，根据上面T值公式可得：

又回到刚刚的耗油量之差的例子，先前我们已经把里面的样本均值和方差算出来了，因此，我们得到它们的t值是：

因此，我们算出来的p值为P(|T|>2.425531)=2×[1-P(|T|<=2.425531)]，根据这个结果，我们在R模拟一下：

2*(1-pt(2.4255,191.561))

两样本方差比较

之前，我们已经介绍了如何用期望、置信区间和t检验进行两样本的比较；接下来，我们还要介绍一种方法来比较两个样本，它就是方差比较。

首先，我们在讲第11章就讲了讲卡方分布。卡方分布就是假设一个标准正态分布有X1，X2……Xn这n个随机变量，而它们的随机平方和由组成一个新的分布的就称之为卡方分布；而卡方检验就是在假设性统计里，统计推断值和实际值的偏差，以卡方值表示。卡方值越大，即它们的偏差就越大，反之亦然，如果为0，即它们没有任何偏差。

而这里，我们要介绍的是F检验法。我们还是假设两个样本的方差分别为Sa和Sb。构造F分布的时候，我们可以根据它们两个样本的方差构造得：

其中，左边就是分别构造两样本的方差估计值和实际值的比率，之所以要构造这个比例，就是因为F分布的计算标准就是根据比率进行的，因此我们也就得到了上面的那个公司。

在R里面，qf()函数计算F分布的分位数，一般形式为qf(σ,dfa,dfb)，其中，σ表示求哪个分位的分位数，dfa和dfb分布代表样本a和样本b的自由度。

现在，根据F分布的公式，再结合qf()函数来构造它的95%置信区间，得：

根据这个公式，我们可以得到：

现在，我们假设H0:Var(Xa)/Var(Xb)=1，而原假设的拒绝域为Fqf(0.975,qfa,qfb)，而p则为2P(F>f)=2[1-P(F<=f)]，它在f<1条件下成立。衡量的标准还是p值是否达到0.05。现在，再次回到之前的耗油量之差的例子，用R模拟过程和结构如下：

var.test(dif.mpg~heavy)

我们看到p值仅为0.16663，小于0.05，这时，我们要拒绝原假设，即，Var(Xa)和Var(Xb)不相同。同时，从这份报告中，我们还看到比率的95%置信区间为[0.4189200,0.9162126]，而样本的比率方差，在最后一行可以看到，是0.6196502；而这一个值，就是由先前我们在求耗油量之差时求出来的，Sa2/Sb2得来的，具体Sa和Sb可以根据先前的结果查看。这里，再说一下p，根据耗油量之差，我们可以用相关函数pf()模拟计算，过程如下：

2*pf(0.6196502,102,101)

最后，我们算一算两样本方差比率的95%置信区间，过程结果如下：

qf(0.025,102,101)

qf(0.975,102,101)

得到95%置信区间为[0.676317,1.479161]。

总结

这一部分的内容把样本的比较方法单独拿出来讲，说明比较两个样本的内容还是相当重要的，而且有很多的方法和相关理论需要掌握。

这部分内容，我们分别从均值、置信区间和方差这3个角度来比较这两个样本的大致情况。比较这两个样本的重要指标就是引入了t检验和F检验，也就是说，我们分别从t分布和F分布来间接比较这两个样本。

用均值进行两样本的比较，我们列举了汽车耗油量之差这个例子，把里面的数据分成2组，然后用t分布计算出相关的p值，并与p值的极值0.05进行比较，如果大于0.05，我们接受原假设，反之亦然。另外，我们在介绍比较两样本的方差之前，我们还通过构造t分布来比较两样本的均值，计算相关的t值和p值，并对比我们所求出的拒绝域；如果落入拒绝域，则原假设不成立，反之亦然。

用置信区间比较两样本，我们引入了两个样本的期望，同时也引入这两个样本的标准差，通过置信区间的计算公式，利用两样本的均值之差构造出95%置信区间，然后根据这个置信区间进行分析。

最后，我们还引入了F分布，通过构造两样本的方差之比进行F检验分析，同样比较它的p值是否达到0.05；如果达到，我们接受原假设，反之亦然。

从上面的文章，我们可以看到假设性检验的其中一种应用，它通过计算相关的值和我们原来的假设进行比较，作为我们的假设是否合理的一个重要指标。由于受限于水平以及课本所提到的内容，可能很多地方会有一些错误，也欢迎大家留言指出。当然，如果大家有什么疑问也可以到留言板上留言，我会尽自己的能力帮你解答。最后，由于文章讲的比较少，而且可能比较难以理解，同时也是读书笔记的形式来写的，所以我打算在后面一段时间，会从概率论与数理统计的角度，把这个系列的读书笔记里所提到的知识进行一个扩充，这样能更有助于你们理解统计学的相关内容。后面的章节，我们就要开始简单的讲述相关的统计模型；不过，由于已经快到本书的结尾，而本系列的比较也很快就写完了，所以如果大家还想看更多的统计模型，我后续也会以各种方式进行补充。

转载于：http://shujuren.org/article/98.html

网友评论

本文标题：统计学思考导论读书笔记-样本比较（二）

本文链接：https://www.haomeiwen.com/subject/vevlettx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

统计学思考导论读书笔记-样本比较（二）

相关文章