了解你的A/B测试的力量
对实验性设计选择的视觉探索
在设计一个实验时,应该提前做出很多决定。其中,我发现很难将其可视化的是功率。这个概念很简单--如果一个效应真的存在,我们有多大可能发现它?- 但对我来说,不同的因素如何影响它,最初是很棘手的。下面,我将影响测试力量的几个因素形象化,但首先让我们回顾一下一些事情。
让我们用一个例子来说明,当一个人走进一家杂货店时,他是否会买一个苹果。从历史上看,我们假设10%的顾客会买,我们称之为p⁰(通常我们在这里使用下标,但对于中标来说,上标更容易)。我们想知道,把苹果架移到离门更近的地方(处理)是否会增加购买苹果的人的比例。在改变了苹果架的位置之后,我们将该比例称为p¹(不管它是否与p⁰变化)。
*要想成为一个真正的A/B测试,我们还需要一个对照组。在这个例子中,我们可以在我们连锁店的一半门店(随机选择)移动展台,而在另一半门店不移动它。然后我们将比较p_treatment和p_control,而不是比较移动前后的比例。
因此,我们设定了无效假设(H⁰)和备选假设(H¹)。
H⁰:购买苹果的人的比例不会增加(p¹≤p⁰)。
H¹:购买苹果的人的比例会增加(p¹>p⁰)。
现在这个测试有几种可能的结果--要么此举能引起效应,要么不能,另外,要么我们能得出结论说它引起了效应,要么没有。这四种可能性总结如下。
测试的4种可能结果
在进行测试之前,我们需要决定几件事。
我们对假阳性的接受程度如何?
如果造成了影响,我们希望有多大的把握能抓住它?
我们希望能够检测到的最小的影响是什么?
第一条规定了我们可接受的I型错误率(见上表),即𝛼。第二点与我们的II型错误率有关,即𝜷。具体来说,第二点是描述测试的功率,由1-𝜷给出。
功率和第二类错误以这种方式相关,这涉及到一个基本问题,上表中各行的概率相加为一--也就是说,真相(实际发生的事情)并没有一个与之相关的概率,要么治疗引起了变化,要么没有。概率与我们将得出的结论有关,因此,如果增加确实发生了,我们可能会得出没有发生的结论(概率为𝜷)或得出确实发生的结论(概率为1-𝜷)。
所以,回到这个问题上。我们(提前)决定一个可接受的I型错误率,通常选择为𝛼=0.05--即 "如果我们的治疗没有效果,5%的时候我们会说有效果"--我们决定一个必要的功率,通常选择为𝜷=0.8--即 "如果我们的治疗有效果,80%的时候我们能够把它从随机波动中分离出来"。那么,我们有了自己的要求,我们如何调整测试设计以适应这些要求呢?
样本大小
想象一下,H⁰确实是真的:而且移动苹果架没有影响。那么,在任何给定的一天,可能会有更多或更少的人购买苹果,所以即使真实的比例是10%,在任何给定的一天对这一比例进行抽样,也会在10%的平均值周围产生一个分布。这个样本越大,我们就越有可能接近那个10%的标志。我们想了解比例的差异 ∆p = p¹-p⁰,所以如果H⁰为真,这个分布将以零为中心。
如果H₀为真,5%的时间(由𝛼定义)我们将测量到∆p > p_crit的值。
*请记住,我们在这个测试中的关键测量值是∆p̂的单一数值,即治疗组和控制组的样本比例之差。我们需要取这个值,并决定H⁰或H¹是真的。
我们的做法是:"如果p̂大于某个临界值,我们就拒绝H⁰,支持H¹"。这个临界值正是由𝛼定义的概率,在图中用灰色虚线表示。
现在设想H¹是真的:把苹果架移到离门更近的地方有一个积极的影响,而且这个影响是10%→12%的+2 p.p.增加。再一次,对任何一天的比例进行抽样,都会在12%的平均值周围产生一个分布。再一次,这个样本越大,我们就越有可能接近12%的平均值。这个∆p分布将以2%为中心。
备选分布的中心是∆p=2%,然而与空分布的重合度很大,导致高𝜷、低功率。
上面的逻辑暗示了我们增加实验力量的第一个方法。通过增加样本量,我们减少了每个分布的方差,这就增加了分布的比例--如果备选假设为真,我们要取样的分布--高于假阳性分界线*(显示为灰色虚线)。请注意,在下图中,平均值和第一类错误率都没有变化,唯一的变化是样本量的增加,这减少了可能的采样分布的方差,增加了力量。
之前让我困惑的一点是,在任何给定的测试中,我们实际上只是从这些分布中的一个取样。要么H⁰为真,我们从蓝色分布中取样,要么H¹为真,我们从橙色分布中取样,但不是两者都是。这些数字是为了确定,根据你的实验设计,你有多大可能分辨出你是从哪个分布中取样的--两个分布的重叠越多,对于一个给定的测量∆p̂,就越难说你是从哪个分布中取样的。
只改变实验的样本量就可以调整分布的方差
随着上述样本量的增加,我们达到了80%的力量,同时保持我们的I型错误率为0.05。这就确定了我们每个处理和控制的样本量。回到我们的商店的例子,如果每天有100人访问治疗组的商店,有100人访问控制组的商店,我们应该计划在分析我们的实验之前等待一个月左右(以允许每组至少有3000个样本)。
最小可测效应
我们可以提高测试能力的另一种方法是接受我们只能检测到治疗的较大效果。在我们的视觉例子中,这意味着∆p增加(将橙色分布向右移动)。
增加最小可检测效应
如果我们愿意相信我们的治疗会产生+3.5 p.p.的效果,而且我们对小于这个效果不感兴趣,那么我们可以接受较小的样本量,仍然可以获得必要的力量。
假阳性率
我们可以提高力量的最后一个方法是接受一个更高的I型错误率。在不改变任何一个分布的情况下,我们可以将临界P值下移,基本上增加了我们得出有效应的结论的机会,但降低了我们对结论的信心。
提高可接受的假阳性(I型错误)率,𝛼。
我们是否愿意接受更高的I型错误率是一个背景问题。它取决于犯某些类型错误的成本是否存在不平衡的情况。在我们的例子中,假阳性会导致我们不必要地移动苹果,也许这不是什么大问题。另一方面,医疗药物试验中的假阳性可能导致医院使用无效的药物。在硬币的另一面,假阴性会导致一种有效的药物被驳回,不能作为未来的治疗手段。因此,很明显,I型和-II型错误的水平是非常主观的。
作为最后的说明,这三个因素不需要单独调整。例如,我们可以同时要求𝛼=0.05和𝜷=0.8,并求解Δp和样本量。这将为我们的设计创造一条可供选择的参数曲线。
求解𝛼=0.05和𝜷=0.8可以得到样本量和∆p的多种解决方案。
注意样本大小和最小可检测效应之间的非线性关系。随着我们要找的效应越来越小,创建样本的成本就会呈指数级增长。
就这样,我希望这些数字能够帮助我们直观地看到,随着实验参数的不同选择,力量是如何变化的。它们当然有助于我弄清楚发生了什么事。如果你过去没有在测试前进行过功率分析,那么下次你建立一个实验时可以试试。
本文由mdnice多平台发布
网友评论