美文网首页
A/B实验设计——偷看问题

A/B实验设计——偷看问题

作者: 老姚记事本 | 来源:发表于2020-08-20 11:03 被阅读0次

偷看是ab测试中最常遇到的问题,本文将说明影响,分析用户为什么偷看,探讨如何应对。

背景

大部分ab测试系统使用固定水平检验。
实验设计阶段,需要预设结束条件:

  1. 检验过程与假设相符。
    例如研究AB群体年收入是否不同,实验就不应该在运行半年时结束。比如A人群高月薪低年终奖,B人群低月薪高年终奖,半年结果离最终结果相去甚远;
  2. 样本量预定。
    根据预设假阳性假阴性水平、最小观测变化,算出需要多少样本。在未达到预设样本量之前,不应该结束(样本量选择)。

提前、延后停止实验,都会导致实验结果不可信。


正确的实验

偷看对实验影响

只是“看”,不对实验进行任何干预,扔按预定结束条件为准,偷看不会影响实验结论的可靠性。

但是很多情况下我们无法抵抗诱惑,当实验似乎很明显时,我们总会干预实验。于是实验流程发生了改变,从而更容易显著(假阳性上升)。实验的过程中充满随机,偷看容易陷入无意义的分析。


偷看的实验

让我们看下图,一个真实的例子。



图中纵坐标代表对照组好于实验组的P值。看起来曲线纵坐标大致都位于50%以上,甚至有超过95%阈值的时刻。可以说明B方案优于A方案么?
然而这个例子只是单纯的“AA”实验,AB方案没有任何不同,曲线只是随机波动。
如果我们不看过程,只看结果,终点并不能说明一个方案显著优于另一个。

为什么要偷看

a. 我们有偷看的需求

  1. 及时止损,尽早结束失败(有害)的实验;
  2. 扩大胜利成果,尽早发现成功的实验。

b. 存在允许偷看的客观条件

固定水平检验产生在大约100年前。我们来看下当年与现代的对比。

100年前:

  • 数据成本高、收集缓慢
    著名的统计学家费希尔,使用假设检验对农业进行研究。作物的生长周期是很难改变的,无法预知结果...数据的采集、计算依赖人力。
  • 对操作者要求高
    实验者是经过训练的专家。

现在:

  • 数据及时、廉价
    科技降低了数据获取的成本,可以研究更精细的事物。互联网业采集、分析用户行为已经越来越成熟。
  • 人人都可以是操作者
    在成熟ab测试平台上,实验者可以轻松进行实验,也更容易在实验分析中犯错。

c. 实验平台模板不适合

实验平台提供了固定的模板,以及在此模板下的终止条件,常见为限定实验周期、分析单位等,并以此得到结束条件。
固化的模板不能通用于所有的实验,因此用户自己判断是否停止也不足为奇。
平台需要增强实验个性化的能力。

如何避免?

不偷看

这是最简单可靠的方案,但是经常很困难。参考以下场景:

  1. 大佬:B方案显著正面了,上线了吧
    小弟:不行,我们还需要再等三天

  2. 大佬:B方案负面显著了,快回滚
    小弟:还需要等三天……

  3. 大佬:这个方案竟然不显著?在跑几天!
    小弟:不行,我们已经达到停止条件了

非固定水平检验

比如贯序检验系列方法,他们一般掌握成本更高,过程更复杂。由于结束条件改变了,并不一定会比固定水平检验更快结束。
Optimizely采用了这种方案,过程中用户可以偷看,每次平台提供可靠的P值与置信区间,整个过程后假阳性依然控制在预定水平。

使用非检验方法

有时我们只是希望知道几个方案哪个更好,这种问题为multi-armed bandit problem,已经有很多相关的研究。

总结

偷看的需求是可以理解的,很多情况下甚至是合理的,但要确保使用的工具、方法允许这样做。如果实验平台方法算法不支持偷看,就应该克制自己提前干扰实验的冲动,否则无法得到可靠的结论。

相关文章

  • A/B实验设计——偷看问题

    偷看是ab测试中最常遇到的问题,本文将说明影响,分析用户为什么偷看,探讨如何应对。 背景 大部分ab测试系统使用固...

  • 实验的变量与设计(二)

    四 实验设计 (一)实验设计及评价标准 1实验设计 即计划和安排 每一个实验设计必须回答三个基本问题: (1)实验...

  • A/B Test

    一、A/B Test是什么? A/B测试是一种帮助的网页优化实验方法。A/B测试的目的在于通过科学的实验设计和采集...

  • 多重检验——FWER,FDR,FCR

    在A/B实验设计——如何避免多重检验错误中,介绍了什么是多重检验,并且介绍了Bonferroni correcti...

  • A/B实验设计——样本量选择

    本文介绍样本量对实验效果的影响,以及如何正确选择样本量。仅作为实验设计者可跳过最后数学推导过程,直接使用工具运算。...

  • 转录组分析Day1笔记--xiaofan1991

      转录组分析之前最重要的是实验设计。严谨实验设计的目的是确保产生的实验数据能够回答我们感兴趣的生物学问题。准确的...

  • 常用实验设计方法(DOE)介绍

    实验设计介绍 Design Of Experiments(DOE) 进行实验设计的目的: •快速达到最好的结果 •...

  • A/B实验设计——如何避免多重检验错误

    本文介绍A/B实验中一个常见的错误——多重检验错误,它经常影响实验得到错误的结论。相关数学推导放在文末,跳过不影响...

  • TM4C123GXL:GPIO、中断、定时器,LED,串口

    嵌入式导论综合实验设计——嵌入式期末报告 TM4C123GXL Final Project 实验题目 综合实验设计...

  • 转录组中的基因表达模式聚类分析

    欢迎关注”生信修炼手册”! 实验设计对于转录组数据的分析是非常重要的,对于常规的case/control实验设计,...

网友评论

      本文标题:A/B实验设计——偷看问题

      本文链接:https://www.haomeiwen.com/subject/iuakjktx.html