A/B测试的”坑“

作者: 成鹏9 | 来源:发表于2020-06-14 18:00 被阅读0次

A/B测试是产品版本迭代的核心评估工具，也是数据化决策的典型应用，好处多多，我就不再赘述了。

但今天我就想讲讲A/B测试的一些“坑”，有些“坑”甚至都把分析师坑的眼泪汪汪。

第一种“坑”，没有核心KPI，就去做A/B测试。

产品同学想上线一个功能，但是不知道上线这个功能给产品带来什么提升，没有一个核心的KPI，做完A/B测试后，要求分析师把A/B测试人群对应的所有指标都提供出来，然后把有显著变化的指标挑出来向上汇报。

第二种“坑”，不看显著性。

对于这类同学，我有两个问题：

样本能100%代表总体吗？不能。

A组指标高于B组，就代表A组效果好吗？不一定。

所以我们需要利用显著性检验，利用大概率事件，这分析的基本要求。

第三种“坑”，手动分解A/B组人群，手动找出显著性。

有的同学发现功能上线后，A/B测试没有效果，甚至还有负向效果。他就会提出这样的问题“那这个功能是不是对部分用户有效呢？比如女性”，于是要求分析师按照他的要求把A/B组人群分成男女四组，然后看各自指标的变化。

当然，当你的拆解随机且样本比例一致的情况下，确实可以做如此分析。问题是你没法随机拆解，比例也不一样啊，而且当这位同学发现这种拆解也是没有显著性的情况，他会想到另一种拆解方法，这样分析师就会陷入“拆解-分析-没有效果-拆解”的死循环中，活活累死。

第四种“坑”，一个功能，上多个A/B测试。

这种同学一看就是老手，很鸡贼。他找到了这个A/B测试的漏洞，他完全可以对一个功能上10个A/B测试，总有一个是有显著性的，这批不行，还有下批，直到有效才停止。

第五个“坑”，对比分析不同A/B测试项目。

有些同学很善于思考，他发现他上的C功能和D功能的A/B测试结果不一样，一个有显著性，另一个没有显著性，他就会问分析师“为什么会出现这种情况？”，然后就是“能不能对这两个项目的A/B测试结果分析一下？”。

当你接到这个活之后，你会发现，你要分析就必须踏入第三个“坑”，就是无限拆解人群。

第六个“坑”，根据A/B测试的结果算增量。

当我们回答了“是否有效果？”的问题后，接踵而来的问题就是“有多少效果？”。根据A/B测试的结果去评估效果，到底是不是一件可靠的事情，这个问题需要单开一篇来讲。这个问题的如果处理的稍有不慎，就会引起非常大的问题。我之前绝大部分的无意义工作，都来自于对该指标的处理不慎。

说了这么多A/B测试的“坑”，其实我理解这种“坑”是一种脱离应用场景的动作变形。A/B测试本质上是一种是在产品精细化迭代场景中的评估效果的工具，既然是一种工具，它就会有应用场景和应用限制，当超出其应用场景和脱离了应用限制，这个工具就失效了，也就是说A/B测试不是万能的。

作为一种工具，它的定位是辅助决策，而不是代替我们决策。

有位大佬对A/B测试做了如下评价，虽然不是很特别客观，但是也不失为目前A/B测试的现状做一次警醒。

我们为什么会有大量的AB测试呢？其实很多事情根本不用测，稍微有点产品感觉就能拍了。你们连逻辑都说不清，自然就拍不了。你们需要用数据来说话的时候，常常是因为你们用逻辑说不了话。 -- 某位大佬

网友评论

本文标题：A/B测试的”坑“

本文链接：https://www.haomeiwen.com/subject/cthfxktx.html

A/B测试的”坑“