美文网首页
AB测试原理(五)非参数检验(2)

AB测试原理(五)非参数检验(2)

作者: saai | 来源:发表于2021-05-23 15:39 被阅读0次

    1. Wilcoxon Signed-rank test

    前提:若数量型匹配(成对)样本观测值若成对称分布,可以用Wilcoxon检测两个总体中位数差异

    目标:检测差值成对称分布的两个总体中位数是否有差异:

    (1) 给定N对样本观测值,其中一个来自总体1,一个来自总体2

    (2) 对两总体中位数之差进行检测,

    H0: 总体1中位数-总体2中位数=0 , H1:总体1中位数-总体2中位数≠0

    (3) 计算每对差值

    (4) 以差值绝对值顺序得到秩(rank)

    (5) 以差值符号作为秩的符号,得到符号秩

    (6) 所有正的符号秩之和为随机变量T^+, 计算得值为t^+_0T^+作为随机变量服从N(\mu_{T^+}, \sigma_{T^+}),

    \mu_{T^+} = \frac{n(n+1)}{4}, \sigma_{T^+} = \sqrt{\frac{n(n+1)(2n+1)}{24}} ,   n>= 10

    (7) t^+ 是 t^+_0的连续矫正后的值,  

    若 t^ >\mu_{T^+}, p-vlaue=2*(1-P(T^+ >= t^+)) = 2*(1-P(z>=\frac{t^+-\mu_{T^+}}{\sigma_{T^+}}))

    若 t^+ <\mu_{T^+}, p-vlaue=2*P(T^+ <= t^+) = 2*P(z<=\frac{t^+-\mu_{T^+}}{\sigma_{T^+}}),                                 (8). p-value<α, 拒绝H0(中位数有差异),否则无法拒绝H0。

    2. Mann-Whitney-Wilcoxon test

    前提:数量型、顺序型数据,不需要假定总体服从正态分布

    目标:检测量总体是否有差异

    (1) 给定来自总体1的n1个样本,来自总体2的n2个样本,和两个总体同一维度的观测值

    (2) H0:两总体相等, H1:两总体有差异, 指定显著性水平α的值

    (3) 将全部样本混合,排序,得到每个样本的秩,同序采用平均秩值

    (4) 分别计算两个总体的样本秩和R1、R2, 以总体1样本集的秩和作为检验统计量W

    (5) 当两个样本容量都大于或等于7时,W的抽样分布可以用正态分布近似,即W ~N(\mu_w, \sigma_w)\mu_w = n_1(n_1+n_2+1)/2, \sigma_w = \sqrt{n_1n_2(n_1+n_2+1)/12}

    (6). 若 W>\mu_w, p-value=2*P(W>=R_1)=2*(1-P(z>=\frac{R_1-\mu_w}{\sigma_w})

    若 W <= \mu_w, p-value=2*P(W<=R_1)=2*P(z<=\frac{R_1-\mu_w}{\sigma_w})       

     (7). 若p-value<α,拒绝H0(两总体有差异), 否则不能拒绝H0

    若量总体形态相同,MWW可用于两总体中位数差异的双侧、单侧检验,

     即H0:中位数1- 中位数2=0, H1:中位数1-中位数2≠0。

    3. 克鲁斯卡尔--沃利斯检验

    前提:数量型、顺序型数据,不需要假定总体服从正态分布

    目标:对K个总体的K个独立随机样本集的分析

    (1) 来自K个总体的K个独立随机样本集的观测值

    (2) H0:所有总体相同;H1:并非所有总体都相同, 指定显著性水平α

    (3) 将所有数据混合排序得到所有样本值的秩,同序采用平均秩值

    (4) 分别计算来自K个总体的样本秩和R1,...., Rk

    (5) 计算统计量H=(\frac{12}{n_T(n_T+1)}\sum_{i=1}^k \frac{R_i^2}{n_i})-3(n_T +1) , n_T = \sum_{i=1}^k n_i

    (6)  当每个总体容量都>=5, H的抽样分布近似服从自由度为k-1的\chi^2分布, 利用\chi ^2分布求p-value

    (7)  若p-value<α,拒绝H0(k个总体不全相同), 否则不能拒绝H0

    若k个总体形态相同,可用于k个总体中位数是否相同的检测。

    4. 秩相关 Spearman rank-correlation coefficient (相关性检测)

    目标:两个变量的相关关系是否显著的检测

    (1) 对两个变量分别排序得到每个样本每个变量值的秩;

    (2) 计算样本集两个变量的Spearman 秩相关系数, r_s = 1-\frac{6\sum_{i-1}^n d_i^2}{n(n^2+1)}, 推断总体变量1和变量2的相关秩为\r_s

    (3) H0: H0: \r_s = 0, H1:\r_s \neq 0 , 确定显著性水平α;

    (4) 当n>=10时,r_s的抽样分布近似服从N(\mu_{r_s}, \sigma_{r_s}), \mu_{r_s} = 0, \sigma_{r_s} = \sqrt{\frac{1}{n-1}}

    (5) 若r_s>\mu_s, 2*(1-P(z>= \frac{r_s-\mu_s}{\sigma_s}))若r_s<=\mu_s, 2*(P(z<= \frac{r_s-\mu_s}{\sigma_s}))

    (6) 若p-value<α,拒绝H0(即总体的变量1与2显著相关), 否则不能拒绝H0。

    相关文章

      网友评论

          本文标题:AB测试原理(五)非参数检验(2)

          本文链接:https://www.haomeiwen.com/subject/gngwjltx.html