Trustworthy Online Controlled Experiments Part 2 Chap 6
- 不能测量, 就不能提高。 − Peter Drucker (longer version by Lord Kelvin)
- 开发团队以为他们完成了很棒的工作,绿灯已经亮了。 但是客户并不这么认为,客户看到了红灯。 − Barclay Rae (2014)
- 在进行转化率优化时,我们经常发现客户在试图提高发动机扭矩而忽略了轮胎漏气的情况 − Bryan Eisenberg and John Quarto-vonTivadar (2008)
为什么重要?
想要衡量 进度和责任感的组织需要良好的指标。例如,一种流行方法是使用目标和关键结果(OKR),其中目标是长期目标,而关键结果是朝着目标迈进的短期,可衡量的结果(Doerr 2018 )。使用OKR系统时,良好的指标是跟踪实现这些目标的进度的关键。了解组织指标的不同类型,这些指标需要满足的重要条件,如何创建和评估这些指标以及随着时间的推移进行迭代的重要性,可以帮助你做出基于数据决策,无论你是否做实验。
指标分类
在由数据驱动的组织中,从顶层目标设置到整个团队的责任制,都可以使用量化的标准和附带的数据分析。仔细讨论组织或团队应采用哪些指标,有助于达成最终目标,并随后为实现这些目标提供透明度和问责制(Doerr 2018)。本节总体上侧重于组织指标,而第7章讨论特定于实验的指标,而第21章讨论护栏指标, 它起到在实验中发出警报的作用。
在讨论组织指标时,常用的分类法是目标(Goal metrics),驱动(Driver metrics)和护栏(Guardrail metrics)。无论我们谈论的是整个公司还是大型组织中的特定团队,这种分类法都是有用的。
目标指标(Goal metrics):(也称为成功指标或真正的北方指标)反映了组织最终关心的内容。尝试提出目标指标时,我们建议先用言语回答如下问题:产品的意义是什么?对于组织而言,成功是什么样的?组织的领导者必须参与回答这些问题,而答案通常与组织的愿景联系在一起。例如,如果Microsoft的愿景是赋予地球上每个人和每个组织更大的权力,或者Google的愿景是组织全球信息,它们的目标通常与这些使命直接相关。
能够用语言表达目标很重要,因为将目标转换为指标通常是不完善的,并且目标指标可能是你真正关心的事情,并且需要随着时间的推移进行迭代。让人们了解指标与目标表达之间的局限性和差异对于正确地推动业务发展至关重要。目标指标通常是单个或很小的一组指标,可以用来当做中短期的目标。这些度量标准在短期内比较稳定,因为短期内的业务发展对这些短期指标影响较小。
驱动指标(Driver metrics): 与目标指标相比,驱动指标(也称为路标指标,替代指标,间接或预测指标)往往是短期,移动速度更快和更敏感的指标。驱动指标反映了组织成功所需采取的心理因果模型,即,基于领导人的假设,而不只是成功的模样。
有几个有用的度量标准框架可以参考:HEART框架(Happiness, Engagement, Adoption, Retention, and Task Success)(Rodden,Hutchinson和Fu,2010年),Dave McClure的PIRATE框架(AARRR! Acquisition, Activation, Retention, Referral, Revenue)(McClure 2007)或一般的漏斗模型。这些框架可以帮助分解走向成功的步骤。例如,一家典型的公司在最终实现收入之前,必须先获得用户并确保其产品具有足够的吸引力来挽留他们。
良好的驱动指标表明我们正在朝着正确的方向前进。
护栏指标( Guardrail metrics): 可以保证做所的事情没有违反既定假设,它分为两种类型:
- 保护业务的度量标准
- 评估实验结果的可信度和内部有效性的度量标准
在这里,我们重点介绍第一种类型的组织护栏,而第21章将讨论可信赖性护栏指标。
我们通常将目光放在目标指标和驱动指标上,但护栏指标对于确保我们在取得适当平衡,且不违反重要约束至关重要。例如,我们的目标可能是吸引尽可能多的用户注册,但我们不希望每个用户的参与度急剧下降。另一个例子是密码管理公司。在安全性(不发生黑客攻击),易用性和可访问性(即用户被锁定的频率)之间可能需要权衡。尽管安全可能是目标,但易用性和可访问性可能是护栏。最后,尽管页面加载时间可能不是目标指标,但我们仍然需要确保功能启动不会降低加载时间(请参阅第5章)。 Guardrail指标通常比目标指标或推动因素更敏感。有关护栏指标的更多示例,请参见第21章。
尽管我们发现目标指标,驱动指标和护栏指标提供了适当的粒度和全面性,但还有其他分类法:
-
资产与参与度指标:资产指标衡量静态资产的累积,例如Facebook用户(帐户)总数或连接总数。参与度指标用于衡量用户因某项操作,或其他使用该产品的用户(例如会话或综合浏览量)而获得的价值。
-
业务与运营指标:业务指标,例如每用户收入或每日活动用户(DAU),可跟踪业务的运行状况。诸如每秒查询之类的操作指标可跟踪是否存在操作问题。
当我们在第7章中进一步讨论实验指标时,还有其他类型的实验指标。数据质量指标可确保基础实验的内部有效性和可信赖性(另请参见第3章和第21章)。当调试目标,驱动目标或护栏目标标准指示存在问题的方案时,诊断或调试度量标准将很有帮助。它们可能会提供其他粒度或其他信息,这些信息通常过于详细而无法持续跟踪,但在深入探究情况时很有用。例如,如果点击率(CTR)是关键指标,那么可能有20个指标来指示页面上某些区域的点击。或者,如果收入是关键指标,那么可能需要将收入分解为两个指标:一个收入指标,它是一个布尔值(0/1),指示用户是否购买了商品;以及“条件收入”指标,表面用户购买了多少钱的商品。总收入是这两个指标的乘积,每个指标都讲述了一个不同的故事。是由于购买人数增加/减少还是由于平均购买价格发生了变化, 导致了总收入发生了变化?
无论使用哪种分类法,都需要对度量标准进行讨论,因为就度量标准达成一致需要明确的目标明确性和一致性。这些度量随后可以用于公司级别,团队级别,功能级别或个人级别的目标设置,并且可以用于从执行报告到工程系统监视的所有内容。随着组织的发展和对指标的理解的发展,还会继续迭代指标。
image.png我们经常需要在公司级别和团队级别衡量不同的目标。每个团队会对公司的整体成功做出不同的贡献。一些团队可能更专注于Engagement,其他团队则更关注幸福感,而另一些团队则更关注收入,性能或延迟。每个团队都必须阐明自己的目标和假设,以了解其指标与公司整体指标之间的关系。相同的指标对于不同的团队作用会不同。一些团队可能将延迟或其他性能指标用作护栏,而基础架构团队可能会将延迟或性能指标用作其目标指标,并将其他业务指标用作护栏指标。
网友评论