美文网首页
统计学思考导论读书笔记-样本比较(二)

统计学思考导论读书笔记-样本比较(二)

作者: 浮浮尘尘 | 来源:发表于2016-09-04 15:38 被阅读87次

4.t检验分析两样本均值

除了按照上面的方法,根据两样本的方差求出两样本的期望之差外,我们还可以引入假设检验对它们的差进行检验。先前在假设性检验的时候就已经讲了H0原假设和H1备择假设,也求出了一个假设的拒绝域。同样的,我们也可以根据假设性检验的相关检验来检验两样本期望,而这里,我们假设H0为E(Xa)=E(Xb),H1取H0反面,而标准则是以p为0.05为准,如果p小于0.05,我们接受原假设,大于则拒绝。在先前的章节中,我们又介绍了t的相关公式,比如H0为E(X)=0,那么,我们T的计算公式则为:

在R语言里,我们常用qt()函数计算t分布的分位数,比如,qt(0.975,n-1)计算的就是t分布当中自由度为n,分位为97.5%的分位数,也可表示成事件{|T|>qt(0.975,n-1)},而P({|T|>t})就是表示R里通常看到的p值。同样的,假设H0:E(Xa)-E(Xb)=0,那么,根据上面T值公式可得:

又回到刚刚的耗油量之差的例子,先前我们已经把里面的样本均值和方差算出来了,因此,我们得到它们的t值是:

因此,我们算出来的p值为P(|T|>2.425531)=2×[1-P(|T|<=2.425531)],根据这个结果,我们在R模拟一下:

2*(1-pt(2.4255,191.561))

两样本方差比较

之前,我们已经介绍了如何用期望、置信区间和t检验进行两样本的比较;接下来,我们还要介绍一种方法来比较两个样本,它就是方差比较。

首先,我们在讲第11章就讲了讲卡方分布。卡方分布就是假设一个标准正态分布有X1,X2……Xn这n个随机变量,而它们的随机平方和由组成一个新的分布的就称之为卡方分布;而卡方检验就是在假设性统计里,统计推断值和实际值的偏差,以卡方值表示。卡方值越大,即它们的偏差就越大,反之亦然,如果为0,即它们没有任何偏差。

而这里,我们要介绍的是F检验法。我们还是假设两个样本的方差分别为Sa和Sb。构造F分布的时候,我们可以根据它们两个样本的方差构造得:

其中,左边就是分别构造两样本的方差估计值和实际值的比率,之所以要构造这个比例,就是因为F分布的计算标准就是根据比率进行的,因此我们也就得到了上面的那个公司。

在R里面,qf()函数计算F分布的分位数,一般形式为qf(σ,dfa,dfb),其中,σ表示求哪个分位的分位数,dfa和dfb分布代表样本a和样本b的自由度。

现在,根据F分布的公式,再结合qf()函数来构造它的95%置信区间,得:

根据这个公式,我们可以得到:

现在,我们假设H0:Var(Xa)/Var(Xb)=1,而原假设的拒绝域为Fqf(0.975,qfa,qfb),而p则为2P(F>f)=2[1-P(F<=f)],它在f<1条件下成立。衡量的标准还是p值是否达到0.05。现在,再次回到之前的耗油量之差的例子,用R模拟过程和结构如下:

var.test(dif.mpg~heavy)

我们看到p值仅为0.16663,小于0.05,这时,我们要拒绝原假设,即,Var(Xa)和Var(Xb)不相同。同时,从这份报告中,我们还看到比率的95%置信区间为[0.4189200,0.9162126],而样本的比率方差,在最后一行可以看到,是0.6196502;而这一个值,就是由先前我们在求耗油量之差时求出来的,Sa2/Sb2得来的,具体Sa和Sb可以根据先前的结果查看。这里,再说一下p,根据耗油量之差,我们可以用相关函数pf()模拟计算,过程如下:

2*pf(0.6196502,102,101)

最后,我们算一算两样本方差比率的95%置信区间,过程结果如下:

qf(0.025,102,101)

qf(0.975,102,101)

得到95%置信区间为[0.676317,1.479161]。

总结

这一部分的内容把样本的比较方法单独拿出来讲,说明比较两个样本的内容还是相当重要的,而且有很多的方法和相关理论需要掌握。

这部分内容,我们分别从均值、置信区间和方差这3个角度来比较这两个样本的大致情况。比较这两个样本的重要指标就是引入了t检验和F检验,也就是说,我们分别从t分布和F分布来间接比较这两个样本。

用均值进行两样本的比较,我们列举了汽车耗油量之差这个例子,把里面的数据分成2组,然后用t分布计算出相关的p值,并与p值的极值0.05进行比较,如果大于0.05,我们接受原假设,反之亦然。另外,我们在介绍比较两样本的方差之前,我们还通过构造t分布来比较两样本的均值,计算相关的t值和p值,并对比我们所求出的拒绝域;如果落入拒绝域,则原假设不成立,反之亦然。

用置信区间比较两样本,我们引入了两个样本的期望,同时也引入这两个样本的标准差,通过置信区间的计算公式,利用两样本的均值之差构造出95%置信区间,然后根据这个置信区间进行分析。

最后,我们还引入了F分布,通过构造两样本的方差之比进行F检验分析,同样比较它的p值是否达到0.05;如果达到,我们接受原假设,反之亦然。

从上面的文章,我们可以看到假设性检验的其中一种应用,它通过计算相关的值和我们原来的假设进行比较,作为我们的假设是否合理的一个重要指标。由于受限于水平以及课本所提到的内容,可能很多地方会有一些错误,也欢迎大家留言指出。当然,如果大家有什么疑问也可以到留言板上留言,我会尽自己的能力帮你解答。最后,由于文章讲的比较少,而且可能比较难以理解,同时也是读书笔记的形式来写的,所以我打算在后面一段时间,会从概率论与数理统计的角度,把这个系列的读书笔记里所提到的知识进行一个扩充,这样能更有助于你们理解统计学的相关内容。后面的章节,我们就要开始简单的讲述相关的统计模型;不过,由于已经快到本书的结尾,而本系列的比较也很快就写完了,所以如果大家还想看更多的统计模型,我后续也会以各种方式进行补充。

转载于:http://shujuren.org/article/98.html

相关文章

  • 统计学思考导论读书笔记-样本比较(二)

    4.t检验分析两样本均值 除了按照上面的方法,根据两样本的方差求出两样本的期望之差外,我们还可以引入假设检验对它们...

  • 统计学思考导论读书笔记-样本比较(一)

    10.两个样本的比较 1.样本的比较 现在,我们讲讲推断统计中两个变量之间的关系问题。 之前的章节中,我们都是采用...

  • Day3—大众抵制科学心理学的原因是什么?

    ✨《这就是心理学》读书笔记 一、关键词: “某某人”统计学,基础概率,样本大小,赌徒谬误,偶然性事件,错觉相关,控...

  • 《数据挖掘导论》学习

    数据挖掘导论读书笔记

  • 合页损失函数

    这里介绍得是统计学习方法中提到的二分类合页损失函数hinge loss 对于包含个样本的数据。代表样本输入,代表真...

  • 浅谈协方差矩阵

    一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面...

  • 《商务与经济统计》笔记(三)

    描述统计学2:数值方法 关键术语 样本统计量:用老对样本进行综合度量的数值(如样本平均数,样本方差和样本标准差 s...

  • K近邻算法

    K近邻算法 标签: 统计学习 目录 [TOC] 算法 对于新样本,找到最邻近的k个样本,然后根据该k个样本决定新样...

  • 统计学-导论

    参考书:《白话统计学》 总体和样本 总体是一个或者一组对象,样本是从更发的总体中抽取的子集。 来自总体并适用于总体...

  • 统计学 导论

    今天没看产品相关书籍,就随便更一点知识类的吧~ 1、统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 ...

网友评论

      本文标题:统计学思考导论读书笔记-样本比较(二)

      本文链接:https://www.haomeiwen.com/subject/vevlettx.html