1、大数定律
当样本数量足够大时,这些样本的均值无限接近总体的期望。
2、中心极限定理
从一个任意总体(由大数定理保障)中抽取容量为n的样本,当n充分大时(n>=30),样本均值的抽样分布近似服从正态分布。
3、参数检验与非参数检验
参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量对总体参数进行检验,比如t检验、u检验、方差分析。
非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
1、参数检验集中趋势的衡量为均值,而非参数检验为中位数。
2、参数检验需要关于总体分布的信息;非参数检验不需要关于总体的信息。
简而言之,若可以假定样本数据来自具有特定分布的总体,则使用参数检验。如果不能对数据集作出必要的假设,则使用非参数检验。
4、卡方检验
卡方分布χ2检验主要是用来检验分类数据的频数问题的,即检验各类实际观察的频数是否显著不同于假设的期望频数。使用χ2检验需要满足以下的假定:
1、每次的试验是独立进行的;如果试验有k个类别,那么每次试验的结果是k个类别中的某一个;(假设多个变量之间不相关)
2、每次试验时每个类别发生的频率都保持不变。(根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值及自由度)
-
χ2检验只适用于频数检验,而不适用于比率的检验。
卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用于测定两个分类变量之间的相关程度。
χ2检验除了可以对假设的频数进行检验外,还可以对各种假设的分布进行检验。在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的一种检验方法。使用χ2检验法对总体分布进行检验时,我们先提出原假设:
H0:总体X的分布函数为F(x)
然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设。这种方法通常称作拟合优度检验,它是一种非参数检验。
注意
根据计算实践,要求n>=50,以及npi>=5,否则应适当合并区间,满足这个要求。
在R中,卡方检验的函数是chisq.test()
chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)
# x : 进行检验的数据,可以是vector或matrix。
# y : 进行检验的数据,当x是matrix时,y会被忽略,x和y可同时为factor。
# correct : 该逻辑参数控制2x2列联表的独立性检验时,是否进行连续性矫正。
# p : 为输入的概率值,应与x变量的长度一致。注意p不可以为负数。
# rescale.p : 该逻辑参数控制是否将p的和重新调整为1。
# simulate.p.value : 控制是否以蒙特卡洛采样的方法模拟p值。
# B : 为蒙特卡洛采样的重复次数。
检验总体是否服从某分布
例1:为研究电话总机在某段时间内接到的呼叫次数是否服从Poisson分布,现收集了42个数据,如下表所示,通过对数据的分析,问能否确认在某段时间内接到的呼叫次数服从Poisson分布(α = 0.1)?
接到呼叫次数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|---|
出现的频率 | 7 | 10 | 12 | 8 | 3 | 2 | 0 |
解:因为皮尔森卡方拟合优度检验要求分组后每组的频数至少要大于等于5,而后三组中出现的频率分别为3,2,0,均小于5,解决方法是将后三组合成一组,此时的频数为5,满足要求
x <- c(7, 10, 12, 8, 5)
chisq.test(x, p = rep(1/length(x), length(x)), B = 42)
> Chi-squared test for given probabilities
> data: x
> X-squared = 3.4762, df = 4, p-value = 0.4815
可见P值>>0.1,可以确认在某段时间之内接到的电话次数服从Poisson 分布。
列联表中行与列的独立性检验
例2:为了研究吸烟是否与患肺癌相关,对63位肺癌患者及43名非肺癌患者(对照组)调查了其中的吸烟人数,得到2x2列联表,如下表所示
* | 患肺癌 | 未患肺癌 | 合计 |
---|---|---|---|
吸烟 | 60 | 32 | 92 |
不吸烟 | 3 | 11 | 14 |
合计 | 63 | 43 | 106 |
#进行Pearson卡方检验
x <- c(60, 3, 32, 11)
dim(x) <- c(2,2)
chisq.test(x, correct = F)
> Pearson's Chi-squared test
> data: x
> X-squared = 9.6636, df = 1, p-value = 0.00188
P值<0.05,拒绝原假设,认为吸烟与患肺癌相关。
网友评论