Trustworthy Online Controlled Experiments Part 2 Chap 8
个人有时会原谅,但集体和社会永远不会原谅。
− Lord Chesterfield (1694–1773
为什么重要
当您的组织进入“飞”的成熟阶段时,包含所有实验和所做更改的记录所构成的的机构记忆就变得越来越重要。它可以用来识别在所有实验中普遍使用的模式,以培养实验的文化,改善未来的创新等等。
什么是机构记忆(Institutional Memory)
在创新过程中完全接受了受控实验后,公司就可以有效地获得有关通过实验进行的所有更改的日志,包括描述,屏幕截图和结果。过去进行的数百甚至数千个实验中的每个实验都是日志中的一页,其中包含每次更改(无论是否发布)的宝贵而丰富的数据。该日志本被我们称为“机构记忆”。本节介绍如何通过荟萃分析来利用机构记忆,以及如何从所有这些历史实验中挖掘洞见。
毋庸置疑,为了建立机构记忆, 需要拥有一个集中的实验平台,在这个平台上可以测试所有更改,这样可以使整个过程变得更加容易。强烈建议捕获每个实验的元信息,例如所有者是谁,实验何时开始;它运行了多长时间,和屏幕截图(如果更改是直观的)。还应该获得结果,以总结实验对各种指标的影响。最后,应该掌握实验所基于的假设;做出了什么决定以及原因。
为什么机构记忆很重要
基于日子的荟萃分析可以获得以下一些洞见,可以分为5类:
1. 实验文化 了解过去的实验可以真正突出实验的重要性,并有助于巩固文化。以下是一些具体例子:
-
实验如何为更广泛的增长做出贡献?例如,如果公司的目标是改善每位用户的会话次数,那么在过去的一年中,每位用户的会话次数提高可归因于实验带来的变化?可以把多个小的提升叠加到一起。 Bing Ads分享了一个强有力的图表,该图表显示了2013年至2015年之间的收益增长是如何归因于数百个实验的增量改进(请参阅第1章)。荟萃分析可以找出影响最大或令人惊讶的实验。
-
尽管数字可以帮助组织获得广泛的见识,但是具体案例可以给人们更加直观的感受。我们发现定期分享大很受欢迎, 而且有助于发现更大的进步(请参阅第1章)。正如我们在第4章中提到的那样,我们还可以共享有关实验的定期报告,这些实验会对人们关注的指标产生重大影响。
-
有多少实验对指标有正面或负面影响?在某些经过优化的领域(例如Bing和Google),成功率仅10%到20%(Manzi 2012)(Kohavi等人2012)。微软表示,他们有三分之一的实验对关键指标产生了积极的影响,三分之一的实验产生了负面的影响,而三分之一却没有产生重大影响(Kohavi,Longbotham等,2009)。 LinkedIn观察到类似的统计数据。人们总是很谦卑地意识到,如果没有进行实验来提供客观真实的评估,我们最终可能会交付正面和负面的实验,从而抵消彼此的影响。
-
通过实验检验的功能百分比是多少?哪些团队进行了最多的实验?季度环比或同比增长是多少?哪支团队对OEC贡献最大?那些严重世故与未经实验就发布的功能有关?在不断的回答这些问题的过程中,企业文化就发生了变化,因为人们意识到实验确实提供了安全网。对于较大的公司,其中有许多团队参与了许多实验,这有助于创建细分并鼓励更好的问责制。
2. 最佳实验方法 不一定每个实验者都遵循最佳实践。当开始尝试进行实验时,尤其如此。例如,实验是否经历了建议的内部Beta上升期?实验是否有足够的Power来检测关键指标的移动?一旦进行了足够的实验,您就可以进行荟萃分析并报告汇总统计数据,以向团队和领导展示他们可以改进的地方。可以按团队细分统计信息,以进一步提高责任感。这些见解可帮助你决定是否应投资最薄弱的环节。例如,通过检查实验斜坡计划,LinkedIn意识到许多实验在早期斜坡阶段花费了太多时间,而其他实验甚至没有经历内部beta斜坡阶段(请参阅第14章)。为了解决这个问题,LinkedIn内置了自动斜坡功能,可帮助实验人员遵循最佳斜坡练习(Xu,Duan和Huang 2018)。
3. 未来的创新 对于新人或新团队而言,拥有过去曾行之有效的实验记录非常有价值。这有助于避免重复犯错并激发有效的创新。过去可能无法进行的更改(可能由于宏观环境的更改)可能值得再次尝试。对许多实验进行元分析时,就会出现一些模式,这些模式可以指导你获得更好的想法。例如,哪种类型的实验对于推动关键指标最有效?哪种UI模式更可能吸引用户? GoodUI.org总结了许多屡获殊荣的UI模式(Linowski 2018)。
在运行了许多优化特定页面(例如搜索引擎结果页面(SERP))的实验之后,您可以预测间距,粗体,行长,缩略图等变化对度量的影响。因此,当您将新元素添加到SERP时,可以缩小要运行的实验空间。另一个例子是查看国家/地区之间的实验异质性(请参阅第3章),您可以发现有关国家/地区对功能的不同反应的隐藏见解,从而可以为这些用户构建更好的用户体验。
4. 指标 指标与实验密不可分(请参阅第7章)。您可以查看实验以及各种指标的执行情况,以更深入地了解如何更好地利用它们。以下是一些针对指标的荟萃分析的案例:
-
公制灵敏度 在制定指标时,一项关键标准是在实验过程中是否可以对其进行有意义的测量。如果实验无法检测一个指标的变化, 那么显然这不是一个好的指标(请参见第7章)。尽管方差是影响敏感性的关键因素,但也应考虑外来变化影响度量的可能性。例如,每日活跃用户(DAU)是一项在短期实验中很难改变的指标。通过在过去的实验中比较现有指标的表现来研究现有指标,可以识别潜在的长期指标与短期指标(Azevedo等人2019)。还可以构建一组值得信赖的实验来评估新指标并比较不同的选项(Dmitriev和Wu 2016)。
-
相关指标 可以在实验中使用指标的移动来确定它们之间的关系。注意,这与度量标准之间的相关性不同。例如,访问LinkedIn的用户更经常发送更多的消息。但是,会话和消息在实验中不一定会同时移动。实验中相关指标的一个例子是早期指标,这些指标往往是领先信号,而其他指标则需要一些时间才能显示出影响。如果那些缓慢变化的指标对于决策至关重要(请参见第7章),那么找到敏感的领先指标就会特别有用。通过研究大量实验,可以发现这些关系。参见Chen,Liu和Xu(2019)了解如何在LinkedIn上发现和利用这种见解。
-
贝叶斯方法的概率先验 随着贝叶斯实验评估的观点越来越流行,一个主要的担忧是否可以构建合理的先验条件。对于更成熟的产品,可以合理地假设历史实验可以提供合理的先验分布。见Deng(2015)。不过,对于快速发展的产品领域,尚不清楚过去的经验分布是否可以合理地代表未来。
5. 实证研究 大量的实验数据也为研究人员通过荟萃分析评估和研究其理论提供了经验证据。例如,Azevedo等。 (2019)研究了公司如何最好地利用实验来提高创新生产力。他们基于在Microsoft实验平台上进行的数千个实验,提出了一种最佳实施和实验策略。实验随机化也可以作为很重要的工具变量。
Saint-Jacques等人通过查看2014年至2016年在LinkedIn上对“您可能认识的人”算法进行的700个实验进行了研究。 (2018)发现了因果关系的证据表明,人与人之间的强链接不会帮助人们找到工作, 反而兼顾强度和多样性的链接,更容易帮助人们找到工作。 Lee和Shen(2018)研究了如何汇总已启动的实验的影响。当进行一组实验时,通常选择那些具有显著成功结果的实验来启动产品。他们研究了这一过程中的统计选择偏差,并通过研究Airbnb实验平台上进行的实验, 进而提出了一种校正方法。
网友评论