根据中心极限定理,重抽样可以针对非正态分布的数据做检验,重抽样分为自助法、置换检验两种。(面向数据科学家的实用统计学3.3)
1.自助法(bootstrap sample)
有放回地从原始样本中抽样。如使用自助法对规模为n的样本做均重值抽样:
(1)抽样一个样本值,记录后放回总体;
(2)重复n次;
(3)记录n个重抽样的均值;
(4)重复(1)~(3)多次,如r次;
(5)使用r个结果,计算标准差,生成直方图、箱线图,找出置信区间。
2.置换检验
适用于任何的分布形式的两组或多组数据差异检验方法,以AB的置换检验过程为例:
(1)将各组得出的结果组合为一个数据集;
(2)对组合得到的数据做随机混洗,然后随机无放回地抽取与A组规模相同的重抽样样本;
(3)在余下的数据中,随机无放回抽取与B组规模相同的重抽样样本;(其他多组依次做)
(4)对重抽样组计算统计量;
(5)重复1~4步骤 R次,生成检验统计量的置换分布。
(6)用观测到的组间差异,与置换分布做对比,若观测到的差异位于置换差异内,认为观测差异“有偶然性”;反之若观测差异大部分落在置换分布外,认为观测差异“与偶然性无关”。
网友评论