所谓A/B测试是指为了测试某个要素对产出(例如销售或者网络广告点击)的影响而进行的一种实验方法,其核心是控制所有其他因素不变产生两个或多个实施方案并进行实际测试以得出结论。(这个定义是作者自己下的,使用需谨慎 )A/B测试在互联网领域中应用相对于其他领域更加广泛,但是其理念和方法可以广泛用于广告、数据库营销以及各类业务优化。
A/B测试属于实验的一种。实验方法在医学、政策制定、营销方面有广泛的应用。这方面的资料大家可以参考《证析》的第二章,“实验及其应用”。下面应用的很多例子如果不特别说明都是从这本书摘过来。
A/B测试并不是新鲜事物。1940年代,当美国商家准备在《纽约时报》上推广一个被称为“年轻人唱片俱乐部”的会员资格时,为了探索不同广告的效果,他们会在报纸上使用不同的广告文案。半数报纸上等着以“让孩子进入音乐的殿堂”为题的广告文案,另一半等着直接诉诸父母的以“帮助你的孩子进入音乐殿堂”为题的广告文案。商家在不同的广告文案上使用不同的通信地址或不同的热线电话等以计算哪个文案更能打动读者。经过实验对比发现,后者的效果是前者的108%。除此之外还进行了大量其他实验。这些实验和数据为营销人员优化广告文案以及营销推广方式提供了坚实的基础。
实际上,A/B测试可以看成是自然选择在技术和产品方面的一种应用。人们创造两种或多种不同事物(这两种事物仅有一个地方不同),然后观察哪种事物的生存几率更高(用某个指标来衡量),然后让这种事物繁殖下去(大规模推广)。下面这个达尔文雀的例子摘自oldj’s blog ( http://oldj.net/article/ab-testing-basic-concept/ )。
“达尔文雀主要生活在太平洋东部加拉帕戈斯(Galapagos)的一个名为伊莎贝拉(Isabela)的岛上,一部分生活在岛的西部,另一部分生活在岛的东部,由于生活环境的细微不同它们进化出了不同的喙。这被认为是自然选择学说上的一个重要例证。
同样一种鸟,究竟哪一种喙更适合生存呢?自然界给出了她的解决方案,让鸟儿自己变异(多个设计方案),然后优胜劣汰。具体到达尔文雀这个例子上,不同的环境中喙也有不同的解决方案。
上面的例子虽然和网站设计无关,但包含了 A/B 测试最核心的思想,即:
1、多个方案并行测试;
2、每个方案只有一个变量(比如鸟喙)不同;
3、以某种规则优胜劣汰。
需要特别留意的是第 2 点,它暗示了 A/B 测试的应用范围,——必须是单变量。有时我们的多个设计稿可能会有非常大的差异,这样的情况一般不太适合做 A/B 测试,因为它们的变量太多了,变量之间会有较多的干扰,我们很难通过 A/B 测试的方法来找出各个变量对结果的影响程度。比如,土豆烧肉和豆腐鲫鱼汤都挺美味,但我们很难比较土豆和豆腐哪一个对菜的美味影响更大,而土豆烧肉和豆腐烧肉则是不错的比较。另外,虽然 A/B 测试名字中只包含 A、B ,但并不是说它只能用于比较两个方案的好坏,事实上,你完全可以设计多个方案进行测试,“A/B 测试”这个名字只是一个习惯的叫法。”
A/B测试听起来是一个技术方案,其实其背后暗藏着一个深刻的思想,那就是基于证据的决策。人得到某种结论的逻辑过程无外乎两种,归纳或者演绎。演绎就是通过逻辑推理得到的某种结论,即用已知的一般原理考察某一特殊的对象,推演出有关这个对象的结论;而归纳则是通过观察某些个体现象而获得推及总体的结论。归纳很大程度上是基于经验进行的,比如一个人连续观察到10次燕子低飞之后下雨,那么就得出结论燕子低飞是下雨的预兆,赶快回家收衣服了。
通过这种基于经验的归纳可以得到非常有价值的结论。比如中国的24节气歌谣,蕴含了祖先长期积累的经验。可是这种经验也可能会导致错误的结果。
至于会导致哪些错误结果?为什么近些年A/B测试越来越受重视?A/B测试在技术和组织上的挑战有哪些?我们下回分解。
下面这个链接是UCD China关于A/B测试的专题,供参考。需要注意的是,这一方法不仅可用于互联网产品,其他行业和产品也是适用的。应该从一种思考方式角度去理解,而不仅仅是一种具体操作方法。http://ucdchina.com/topic/332
网友评论