美文网首页
给女朋友写的生统资料_Part12

给女朋友写的生统资料_Part12

作者: 城管大队哈队长 | 来源:发表于2019-06-05 16:46 被阅读0次

我感觉到后面应该会讲的比较省略了,公式模板什么的套的比较多,因为主要是用来做考试复习和速查的。大家如果有什么疑问,可以在下面提出来。在这一部分,我也会注重把解题的步骤写出来(好像写出来是有分的)。其实我们假设检验的步骤就是,建立H0和H1,然后确定分布,然后确定我们的样本值以及更极端值所占有的比率,如果比例太小,说明这个样本值不常见,就可以拒绝H0,接受H1。

样本均值比较

样本均值的比较我们一般会涉及到 Z检验 和 t检验。Z检验针对的是总体方差已知的情况,t检验针对的总体方差未知的情况。一般来说,t检验更为的常见。

使用t检验,前体条件必须是样本均值的抽样分布符合正态分布。如果总体是正态分布,那么小样本的样本均值抽样分布也可以符合正态分布。如果总体不是正态分布,那么只有样本量达到一定大小,才可以符合正态分布。但一般来说,我们的考试生物学数据是符合正态分布的,而且课上也不提检验正态性,所以我这里不说检验正态分布了。后面ANOVA就提到了检验正态性。。。。。

当然,某些生物学也是不符合正态性的,就要考虑用非参数检验了。

Z检验

Z检验就是根据样本值,得到样本值的Z-score,然后计算概率。

单样本均值比较,即与某个数字进行比较的话,就是
z= \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
两样本的均值比较的话,就是
z=\frac{(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}
举个例子:

假设我们已知总体身高符合正态分布,且标准差已知为5,那么我们的样本数据为……(这里放上一堆数字,总共为20)。那么我们想要检验总体均值是否8。

步骤为:

我们建立原假设和备则假设,并设置显著性\alpha=0.05
H_0:\mu=8\quad H_1:\mu \neq8
然后计算p-value

# 模拟数字
> data <- rnorm(20,mean = 8,sd = 5)
> data
 [1] 10.688820  7.462011  6.457040  6.146526 20.790506  9.610317  3.614535  5.224481
 [9] 16.044720  8.231625  5.929559 13.817802  8.168671  3.331038  7.902722  7.818987
[17] -4.585604  5.304461  3.261386 11.483466

# 计算样本均值和标准差
> mean(data)
[1] 7.835154
> sd(data)
[1] 5.286252

# 计算z-score
> (mean(data)-8)*sqrt(20)/(sd(data))
[1] -0.1394591

# 计算p-value
# 因为z-score < 0,所以计算p-value是
> 2*pnorm(-0.1394591)
[1] 0.8890874

由于p-value > 0.05,所以接受H0。即认为总体均值是等于8的。

首先要注意单尾和双尾的问题,如果H1是不等于,就是双尾。H1是大于或者小于,就是单尾。单尾的话,p-value不用乘以2了。

z-score这里手算的话,要注意z-score的正负,如果是负的话是2*pnorm(z-score)。如果是正的话,就是2*(1-pnorm(z-score))

t检验

单样本的t检验
t=\frac{\bar{x}-\mu}{s/\sqrt{n}}
配对样本的t检验

配对样本的t检验,本质上就是配对样本对应值之差的单样本检验。所以也是一样的公式

独立两样本的t检验——方差相等
t = \frac{(x_1-x_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s_p^2}{n_1}+\frac{s_p^2}{n_2}}}

s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}

t分布的自由度为
df=n_1+n_2-2

独立两样本的t检验——方差不相等
t=\frac{(x_1-x_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}
t分布的自由度为:
df = \frac{(s_1^2/n_1+s_2^2/n2)^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}
t分布的步骤还是跟z差不多的,只要注意写上H0和H1就行了。不过不同的是,需要记得去检验方差齐性。方差齐性的R函数是var.test。方差齐性检验完了,如果是齐性的,就在t.test 里面设置 var.equal=T

举个例子(这里我不写H0,H1了)

# 生成数据
> t_data1 <- rnorm(20)
> t_data2 <- rnorm(20)

# 先确定是不是配对数据,我们先假设是配对的
> t.test(t_data1,t_data2,paired = T)

    Paired t-test

data:  t_data1 and t_data2
t = 0.82025, df = 19, p-value = 0.4222
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.3972871  0.9093616
sample estimates:
mean of the differences 
              0.2560372 

# 也可以假设是不配对的
# 然后确定你的H1假设是单尾还是双尾,然后调整
# 我们假设是双尾,即两者均值不等——双尾其实是默认值
t.test(t_data1,t_data2,alternative = "two.sided")


# 然后要做方差齐性检验(这里也要写H0和H1,即假设方差是否相等)
> var.test(t_data1,t_data2)

    F test to compare two variances

data:  t_data1 and t_data2
F = 1.6712, num df = 19, denom df = 19, p-value = 0.2719
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.6614761 4.2221719
sample estimates:
ratio of variances 
          1.671187 
          
# 做完方差齐性之后,根据结果,设置var.equal参数
> t.test(t_data1,t_data2,var.equal = T)

    Two Sample t-test

data:  t_data1 and t_data2
t = 0.77421, df = 38, p-value = 0.4436
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4134474  0.9255219
sample estimates:
  mean of x   mean of y 
 0.21364009 -0.04239716 

样本方差比较

单样本方差比较

对于单样本的方差比较,我们用卡方分布。卡方统计量为
\chi^2=\frac{(n-1)s^2}{\sigma^2}
例子就用PPT上这张图

PPT这里的零假设是方差等于35

只不过这里p值的计算可以利用R来做,不用查表

# 还是双端
> 2*pchisq(2.103,9)
[1] 0.02053599

关于不同情况下的双端计算,可以看这张PPT。


12_2.png

两样本方差比较

对于两样本的方差比较,我们用F检验。

F分布的定义为设随机变量 X_1 \sim \chi^2(m)X_2 \sim \chi^2(n),X1与X2独立。则称 F=\frac{X1/m}{X2/n}的分布是自由度为m与n的F分布,记为 F\sim F(m,n)。这个定义恰好适用与我们的两样本比较。

检验过程用PPT表示:

12_3.png 12_4.png

当然,在R里面,你直接用var.test就可以了。

相关文章

  • 给女朋友写的生统资料_Part12

    我感觉到后面应该会讲的比较省略了,公式模板什么的套的比较多,因为主要是用来做考试复习和速查的。大家如果有什么疑问,...

  • 给女朋友写的生统资料_Part19

    聚类 聚类(clustering),指将样本分到不同的组中,使得同一组中的样本差异尽可能的小,而不同组中的样本差异...

  • 给女朋友写的生统资料_Part14

    之前我们提到了如果做多次的假设检验,就要考虑多重比较矫正的问题了。那有没有只用做一次检验就可以搞定的方法呢。其实是...

  • 给女朋友写的生统资料_Part15

    相关性 当我们在衡量两个变量的相关关系的时候,我们可以用协方差来进行描述。协方差的公式为 协即协同的意思,X的方差...

  • 给女朋友写的生统资料_Part11

    中心极限定理 中心极限定理 假设我们有一个总体,我们从总体中取出一个大小为5的样本。我们可以利用这个样本均值、方差...

  • 给女朋友写的生统资料_Part13

    Power(统计功效) 关于power,我觉得下面这张图已经解释的很好了。 当 H0 是正确的时候,拒绝了H0,就...

  • 给女朋友写的生统资料_Part16

    多元线性回归 多元线性回归的方程写为:其中代表第个预测变量,是对应的模型参数。可以解释为在所有其他预测变量保持不变...

  • 给女朋友写的生统资料_Part17

    逻辑斯蒂回归 我们之前提到的线性回归是利用X来预测Y,Y是连续型的数值变量。但有时候Y并不是连续型的变量,而是一种...

  • 给女朋友写的生统资料_Part18

    apply和function 差异基因的检验估计会用到function和apply。不过差异基因表达的functi...

  • 给女朋友写的生统资料_Part6

    前面我们已经讲过了在生统课上会用到基本的数据结构以及怎么来提取我们想要的数据,这一部分我们来讲讲数据的清洗。 在生...

网友评论

      本文标题:给女朋友写的生统资料_Part12

      本文链接:https://www.haomeiwen.com/subject/twjsxctx.html