统计学是一个在海量样本的总体(population)中抽样(sample),并以样本统计量评估总体参数的过程。比方说在2010年入学的大一新生中抽取200人样本统计身高,以评估“2010年入学的大一新生”这一总体的身高情况。
但是在通过样本统计量评估群体统计量,并进行比较的时候,我们不能确定观察到的差异是两个(或多个)不同群体本质上的差别(系统误差),还是抽样误差。个体差异一定会存在,抽样误差虽不可避免,但是可以通过统计检验将其与系统误差进行区别。根据不同的研究目的设置假设检验(H0,零假设),使用各种检验方法判断“拒绝H0,犯假阳性错误(一类错误)”的概率(即P值)。
在比较不同大小,个数的样本统计量时,使用的统计检验方法不同。且各统计检验方法存在前提条件(assumption).如样本量的要求,对样本是否来自正态分布群体的要求等。下图为连续型变量及分类变量样本统计检验的小结(来自网络)。
Normal为样本来自正态分布,Skew为偏态分布。可以使用正态性检验,也可以画出其频数分布图,观察其分布情况。
在上图中,正态分布的样本的检验为参数性检验,偏态分布则为非参数性检验。除了“来自偏态分布”这样一个使用非参数检验的条件以外,还有其他适用条件:
- 有序变量资料;
- 总体分布类型不明确(不知道是不是正态分布)
- 偏态分布,且没办法转化为正态分布
- 对比组间不符合方差齐性
另外Mann-Whitney U test还有若干别名:Mann-Whitney Wilcoxon test 及 Wilcoxon Rank Sum test
下图为考虑样本量时,采用参数或非参检验的总结。高斯分布即正态分布(来自网络)。
网友评论