美文网首页
A/B实验设计——样本量选择

A/B实验设计——样本量选择

作者: 老姚记事本 | 来源:发表于2020-07-17 17:18 被阅读0次

本文介绍样本量对实验效果的影响,以及如何正确选择样本量。仅作为实验设计者可跳过最后数学推导过程,直接使用工具运算。

样本量的影响

假设一个这样的实验,按钮颜色对用户点击率的影响:


假设A样式点击率30%,B样式点击率为40%。考虑以下两种情况:

  1. 当每个页面有10次访问时,直观感受上并不能证明B比A的点击率高。实际约65%的可能性差异是随机产生的。
  2. 当每个页面有1000次访问时,差异不像是随机产生了。实际只有约0.0002%可能性差异是随机产生的。

通过上面例子发现,相同的差异程度下,样本数量越多,我们越有把握两者并不相同。这也是符合生活经验的。

样本量选择原则

我们已经知道了样本数越多,证据会越可信,那么样本数该怎么选择呢?

实验角度,样本量越多越好

样本数量变多,实验则有了更多的“证据”,实验的“可靠性”也就越强。

业务角度,样本量越少越好

样本量应该越少越好,因为:

  1. 试错成本大。假设我们拿50%用的户来跑实验,但不幸的是,1周后结果表明实验组的总收入下降了20%。算下来,你的实验在一周内给整个公司带来了10%的损失。这个试错成本未免高了一些...
  2. 其它风险增加。移动端例子,假设B方案崩溃率增长,1%流量我们可以从容处理,50%流量会对业务造成严重影响,甚至事故定责。
  3. 流量有限。流量总数是确定的,同类型的实验不能重叠,实验流量更小,就可以同时运行更多的实验。

样本量如何选择

通过样本量计算工具可以直接得到,有很多的在线工具,例如对转化率可使用Evan's Awesome A/B Tools

参数解释

  1. Baseline conversion rate:填入实验前估测到的转化率,可以通过旧数据统计作为估算。
  2. Minimum Detectable Effect:填入希望观测到的最小效果。填入实验的预期。
  3. Statistical power:1 - 假阴性概率。实验效果真实有效时,能被正确发现的概率。
  4. Significance level:假阳性概率。实验实际没有效果时,被错误发现的概率。

总结

样本量选择一般过程:打开样量计算器,填入α, power, MDE,填入已知参数(转化率、均值、方差等),得到结果。


附录:样本量计算原理

需要读者有一定数理统计知识,跳过不影响实验设计。从单尾假设检验出发进行推导,然后扩展到双尾假设检验。

单尾假设检验


定义θ = μ2 - μ1,图中对应假设可转换为:
原假设:θ = 0,此时对应红色曲线
备择假设:θ > 0,此时对应绿色曲线

μ1:方案A的期望值,不可改变。
μ2:方案B的期望值,不可改变。
\bar x:方案A的均值,会随机波动。
\bar y:方案B的均值,会随机波动。
\alpha = \mathbb{P}(\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} > C | \mu1 = \mu2 ) ,红色曲线下,红色面积占比。
\beta= \mathbb{P}(\frac{ \bar y - \bar x }{SD( \bar y - \bar x))} <= C | \mu1 > \mu2 )
power = \mathbb{P}(\frac{ \bar y - \bar x }{SD( \bar y - \bar x))} > C | \mu1 > \mu2 ) ,绿色曲线下,绿色面积占比。
MDE:根据期望效果取的值,会参与样本量计算
μ2 - μ1 >= mde时,power大于等于预设值,实验容易显著。
μ2 - μ1 < mde时,power小于预设,实验不容易显著。

\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} > C中,C为预设常量,\bar x\bar y通过实验获取无法控制,唯一可以改变的是SD( \bar y - \bar x)),样本量增大 -> SD( \bar y - \bar x))减少 -> 实验显著概率升高。

计算过程:
{SD( \bar y - \bar x)} = MDE / [ \phi^{-1} (\alpha) + \phi^{-1} (power )] ,

x、y样本量同为n,标准差同为\sigma时,
{SD( \bar y - \bar x)} = \sqrt{2\sigma ^{2}/ n},

易得n = 2\sigma ^{2} [ \phi^{-1} (\alpha) + \phi^{-1} (power )]^{2}/MDE^{2}

双尾假设检验

定义θ = μ2 - μ1,双尾情况下对应假设:
原假设:θ = 0;
备择假设:θ ≠ 0 ,等价于 θ > 0 or θ < 0。

双尾假设检验一般是对称的,在此情况下有:

  1. \alpha = \mathbb{P}(\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} > C1 | \mu1 = \mu2 ) + \mathbb{P}(\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} < C2 | \mu1 = \mu2 )
  2. \mathbb{P}(\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} > C1 | \mu1 = \mu2 ) = \mathbb{P}(\frac{ \bar y - \bar x}{SD( \bar y - \bar x))} < C2 | \mu1 = \mu2 )

正态分布的概率密度函数特点为左右对称(钟形曲线),由此可知:
C1 > 0, C2 < 0, |C1| = |C2|

可以理解为一个α水平的双尾假设检验,等于两个α/2水平的单尾假设检验。
将α/2带入单尾计算公式,得到双尾检验需要的样本量为:
n = 2\sigma ^{2} [ \phi^{-1} (\alpha/2) + \phi^{-1} (power )]^{2}/MDE^{2}

相关文章

  • A/B实验设计——样本量选择

    本文介绍样本量对实验效果的影响,以及如何正确选择样本量。仅作为实验设计者可跳过最后数学推导过程,直接使用工具运算。...

  • 蛋白质组学定量 Normalization 方法之一

    Normalization 是为了样本之间可以比较,用来矫正系统误差。例如上样量A样本是B样本的两倍,最后得出A样...

  • 你想知道的A/B实验知识全在这里了

    01前言 A/B实验的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的结论...

  • 你想知道的A/B实验知识全在这里了

    一、前言 A/B实验的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的结论...

  • 用python解释大数定理

    假设由一个gamma分布 总体均值 下面将对总体抽取一定样本量, 且样本量逐渐变大 结论: 可以发现, 随着样本量...

  • 样本量估计

    ERM 真实损失定义为总体分布,为真实标签函数,为标签函数,也叫模型或分类器。为在总体分布和真实标签函数分别为D和...

  • 样本量估计

    参考文献: 1.样本量估计:http://movie.medline.org.cn/CME/889811.jhtm...

  • 样本量估计

    转自“医学统计园”微信公众号,欢迎扫描二维码关注 在我们进行临床实验,或者基础研究时,一定会涉及到需要纳入多少例研...

  • 如何在shell脚本中控制任务投递

    如果只有一个样本,或者样本量不大的情况下,我会选择一次性投递所有的任务。但是如果有100个以上的样本,那我就得谨慎...

  • 少则得,多则惑

    《道德经》提出“少则得,多则惑”的价值主张。我们在面对选择的时候,过多的样本量反而会迷惑心智,因为每个样本都有不可...

网友评论

      本文标题:A/B实验设计——样本量选择

      本文链接:https://www.haomeiwen.com/subject/uuiwhktx.html