美文网首页
PH525x series - Central Limit T

PH525x series - Central Limit T

作者: 3between7 | 来源:发表于2019-11-11 11:28 被阅读0次

Central Limit Theorem

  • 中心极限理论(CLT)

CTL是科学领域最经常使用的一种数学理论,具体是指:当样本量很大时,一个随机样本的平均数\bar X满足“以群体均数 μ_X为中心、以群体标准差σ_X除以样本量N的开方为标准差”的正态分布。而一个随机变量的标准差分布便是该变量的标准误。

引申1:若X是一个随机变量,且其平均数为μ、标准差为σ\alpha为一个常量,那么: (1)X - \alpha的平均数为μ - \alpha;(2)\alpha X的平均数和标准差则分别为\alpha μ|\alpha| σ
由此,可推断出,当多次采取样本量为N的样本时,数据量:

( \bar X - μ )/ (σ_X/\sqrt N)

大致满足以0为中心、以1为标准差的正态分布。

引申2:若有两个随机变量XY,其各自平均数与方差分别为μ_Xμ_Yσ_Xσ_Y,那么:(1)X + Y的平均数就是μ_X + μ_YX - Y的平均数就是μ_X - μ_Y ;(2)若加上XY互相独立,那么X + YX - Y的方差均等于σ_X ^2 + σ_Y ^2

总之,(1)若X正态分布,那么- X同样为正态分布;(2)满足正态分布的变量,其和同样满足正态分布。

引申3:在零假设下,群体间的平均数并无差异,也就是\bar Y - \bar X大致满足以0为中心,以\sqrt (σ_X ^2 + σ_Y ^2)/\sqrt N为标准差的正态分布,而统计量:

(\bar Y - \bar X) / \sqrt(σ_X ^2/M + σ_Y ^2/N)

则大致满足以0为中心,以1为标准差的正态分布。但由于群体标准差未知,我们可以使用样本的标准差代替他们,即S_X ^2S_Y ^2,他们的定义如下:

WechatIMG126.jpeg

当M和N很大时,(\bar Y - \bar X) / \sqrt(S_X ^2/M + S_Y ^2/N) 同样满足以0为中心,以1为标准差的正态分布。

t-distribution

若从某一平均数为0的群体中获取一随机变量Y,那么统计量t:

t = \sqrt N * (\bar X -μ)/S_Y

满足t分布,t分布的密度曲线类似标准正态分布,但中间瘦一些、尾巴厚一些,但是当自由度增加时,它的分布就逐渐接近标准正态分布了,因此,在大样本量时,可以用标准正态分布来近似t分布。

补充知识:

  • 来自《统计学:从概念到数据分析》
    中心极限定理成立的一份充分条件是:样本点是独立的,来自一个总体(同分布),总体均值存在,并且有非零有限总体方差。


本章节中的涉及的几个R知识点

Skill 1: Download from within R

library(downloader) ##use install.packages to install
url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/femaleMiceWeights.csv"
filename <- "femaleMiceWeights.csv" 
download(url, destfile=filename)

Skill 2: Download from within R
有很多个人上传的R包在GitHub中,无法从CRAN中获取,可使用devtools包进行下载,如:

library(devtools)
install_github("genomicsc/dagdata")

#几个可能会用到的函数
#提取dagdata包中的数据
dir <- system.file(package="dagdata")
#列举路径中的文件
list.files(dir)
#生成路径
file.path(dir,"相对路径")

Skill 3: Brief Introduction to dplyr

library("dplyr")
##fileter函数可用来获取数据子集,与subset函数类似,select函数可以返回某数据框的某一列,有点是可以使用管道符链接(%>%),如:

chowVals <- filter(data,<column_name>=="...") %>% select(<column_name>)

#注意:若data为数据框,返回的chowVals也为数据框,可使用unlist函数将chowVals转变为vectors,如:

chowVals <- filter(data,<column_name>=="...") %>% select(<column_name>) %>% unlist

上述获取数据框子集的操作也可以这样:
chowVals <- data[ data$<column_name>=="...", colnames(data)=="..."]

Skill 4: plot ggplot

library(rafalib)
library(igraph)
par(mfrow(1,2)) #将画布分为1行两列
qqnorm(y, ylim, main = "Normal Q-Q Plot",
            xlab = "Theoretical Quantiles", ylab = "Sample Quantiles",
            plot.it = TRUE, datax = FALSE, ...) #绘制qq图
qqline(y, datax = FALSE, distribution = qnorm,
            probs = c(0.25, 0.75), qtype = 7, ...) #绘制theoretical distribution


相关文章

网友评论

      本文标题:PH525x series - Central Limit T

      本文链接:https://www.haomeiwen.com/subject/bjewbctx.html