Central Limit Theorem
- 中心极限理论(CLT)
CTL是科学领域最经常使用的一种数学理论,具体是指:当样本量很大时,一个随机样本的平均数满足“以群体均数 为中心、以群体标准差除以样本量的开方为标准差”的正态分布。而一个随机变量的标准差分布便是该变量的标准误。
引申1:若是一个随机变量,且其平均数为、标准差为,为一个常量,那么: (1)的平均数为;(2)的平均数和标准差则分别为和。
由此,可推断出,当多次采取样本量为N的样本时,数据量:
大致满足以0为中心、以1为标准差的正态分布。
引申2:若有两个随机变量和,其各自平均数与方差分别为、和、,那么:(1)的平均数就是,的平均数就是 ;(2)若加上和互相独立,那么与的方差均等于。
总之,(1)若正态分布,那么同样为正态分布;(2)满足正态分布的变量,其和同样满足正态分布。
引申3:在零假设下,群体间的平均数并无差异,也就是大致满足以0为中心,以为标准差的正态分布,而统计量:
则大致满足以0为中心,以1为标准差的正态分布。但由于群体标准差未知,我们可以使用样本的标准差代替他们,即与,他们的定义如下:
WechatIMG126.jpeg当M和N很大时, 同样满足以0为中心,以1为标准差的正态分布。
t-distribution
若从某一平均数为0的群体中获取一随机变量Y,那么统计量t:
满足t分布,t分布的密度曲线类似标准正态分布,但中间瘦一些、尾巴厚一些,但是当自由度增加时,它的分布就逐渐接近标准正态分布了,因此,在大样本量时,可以用标准正态分布来近似t分布。
补充知识:
- 来自《统计学:从概念到数据分析》
中心极限定理成立的一份充分条件是:样本点是独立的,来自一个总体(同分布),总体均值存在,并且有非零有限总体方差。
本章节中的涉及的几个R知识点
Skill 1: Download from within R
library(downloader) ##use install.packages to install
url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/femaleMiceWeights.csv"
filename <- "femaleMiceWeights.csv"
download(url, destfile=filename)
Skill 2: Download from within R
有很多个人上传的R包在GitHub中,无法从CRAN中获取,可使用devtools
包进行下载,如:
library(devtools)
install_github("genomicsc/dagdata")
#几个可能会用到的函数
#提取dagdata包中的数据
dir <- system.file(package="dagdata")
#列举路径中的文件
list.files(dir)
#生成路径
file.path(dir,"相对路径")
Skill 3: Brief Introduction to dplyr
library("dplyr")
##fileter函数可用来获取数据子集,与subset函数类似,select函数可以返回某数据框的某一列,有点是可以使用管道符链接(%>%),如:
chowVals <- filter(data,<column_name>=="...") %>% select(<column_name>)
#注意:若data为数据框,返回的chowVals也为数据框,可使用unlist函数将chowVals转变为vectors,如:
chowVals <- filter(data,<column_name>=="...") %>% select(<column_name>) %>% unlist
上述获取数据框子集的操作也可以这样:
chowVals <- data[ data$<column_name>=="...", colnames(data)=="..."]
Skill 4: plot ggplot
library(rafalib)
library(igraph)
par(mfrow(1,2)) #将画布分为1行两列
qqnorm(y, ylim, main = "Normal Q-Q Plot",
xlab = "Theoretical Quantiles", ylab = "Sample Quantiles",
plot.it = TRUE, datax = FALSE, ...) #绘制qq图
qqline(y, datax = FALSE, distribution = qnorm,
probs = c(0.25, 0.75), qtype = 7, ...) #绘制theoretical distribution
网友评论