前言
在精细化运营中,运营动作干预业务后产生的效果,不只要从“绝对量”上观测,也需要要从“相对量”衡量,更深一层是验证运营动作对于效果产生的因果性。有些运营动作还会涉及到花钱,也需要考虑钱花的值不值,花的钱准不准,也就是ROI问题。
度量效果的思考角度
目标导向,效率约束
评估要以业务目标为出发点,效率不是目标,只是达成目标过程中的制约条件。
比如设定业务目标,达成站外获客日均xx,人均获客成本不高于yy元;提升转化率xx,且补贴ROI不低于yy。
先看效果,再看效率
效果是跟着目标设定走,先看效果,再谈效率。
比如一个以站外获客10w作为目标的活动,哪怕拉1个人新注册增量成本只要1元,但是活动的获客人数不足100人,效率很高,但是效果很差,没有实际的业务价值。
寻找对照,验证增量
谈效率需要找到增量部分,也就是相对值,相应的需要一个对照组。
比如,一个营销活动,对照组就是“假如活动不上线,用户的行为表现是什么样子”,排除掉之后,才是活动真正带来的效果。
4种寻找对照组的方式
目标相关的效果指标是可以直接通过业务数据计算所得到的,而要计算出效率,那么需要构造出相应的对照组,以下4种在实战过程中常用的手段,读者可以根据当前业务的技术基建能力选择使用。
1.流量分层对比(AB TEST)
行内有句话,“遇事不决,AB一下”,可见它的普及度。简单来说,是一个控制变量法,同一个目标下设计2个方案,一部分用户走A方案,一部分用户走B方案,最后看A和B方案的效果差。
AB TEST中,一般会观测三类指标:
- 核心指标:这种指标是决定实验成败的关键指标;
- 辅助指标:用于辅助判断实验对其他因素的影响;
- 反向指标:实验可能产生负面影响的指标。
使用AB TEST的时候,两个方案的效果直接简单相减的结果不一定置信,需要进行一定的显著性检验,或者设置两个同等的对照组用来观测自然情况下的波动,避免将自然“波动”也认为是一种“增量”。同时,如果样本量太小,增量效果可能直接淹没在波动中,这里有一个工具可以根据预测的增量来决定最小样本数。最小样本量计算工具。
然而,AB TEST在实战中并不是万试万灵的神药,比如活动具备裂变性,即用户A可以邀请用户B参与,那么实验组用户会污染到对照组,造成效果的偏差还有类似于会员开卡等活动必须对用户一致性展示,也无法生产对照组;再如活动已经全量投放了,客观上失去了对照组。
提一个实践中的案例,有一个裂变活动,助力的用户可以再发起,我们想要去论证到底助力难度是3人好还是5人好。如果直接做随机分流,那么难度3的助力人再发起可能是5,裂变产生的延伸效果无法体现,因此在设计AB的实验分流下增加了一条规则,首次主动发起随机分流,后续的再发分享用户的助力难度跟随发起者所在的分组。这样,可以监测到裂变带来的效果。
2.用户分群拆分对比
活动中触及到不同类型的用户且不同类型用户比例且活动深度差异显著,无法直接将活动用户与大盘用户进行对比,于是衍生出用户分群看效果的方式,核心思想是:将活动的用户按照类型拆分为子类,每个子类与大盘的子类用户进行对比,综合起来即代表活动整体的效果。
比如,一个活跃工具类用户,如果不进行用户分群拆分,从表象上看留存较大盘提升了20pp,而拆分完后发现实际活跃工具仅在成熟用户上有效且仅提升了10pp。
举个活跃类工具
其次,实战中基于用户LTV运营时,每类用户效果统计的方式不一样。用户LTV周期通常分为获取、成长、成熟、衰退、流失等5个阶段。我们假定只有2个运营动作,新客运营和老客运营。虽然新客运营从0到1单的转化上进行干预,但这个干预动作可能会后续用户的2,3,4等单都有促进作用。其次老客运营实际仅对部分用户进行干预。因此,计算新客运营产生的“V”的“LT”需要分为2块:如果这个用户被老客运营干预了,那么新客运营后到老客运营前;如果没有被老客运营干预果,那么新客运营后到用户流失前。
举个具体的例子:通过某拉新活动有100个新交易用户,在后续的运营过程中,其中的30个用户在1个月后老客运营进行干预,剩余的70个用户没有老客运营且到第1次流失平均为6个月。那么ΔGMV:30个用户第1单后1个月内的全部交易额+70个用户在第1单后6个月内的全部交易额。
什么样的活动即会涉及到新客,又涉及到老客呢?实战中,站外的裂变活动通常兼具拉新和召回两个效能,且大公司内这2个成本的支出亦有可能出进2个不同的团队,因此得分群计算清晰。
3.算法构造相似人群对比(PSM)
PSM,倾向评分匹配,其理论框架是“反事实推断模型”。详细的内容可以自行知乎。简单来说:有一个运营动作对用户“张三”进行干预,表现出了效果A,假设没有这个运营动作干预会表现出B。通过A-B就能计算出这个运营动作的效果。而当前的事实是“张三”已经是被干预了,相同时空下无法知道“张三”未干预的情况,所以需要构造出一个没有被运营动作干预的“李四”,通过“张三”的效果 减去 “李四”的效果来近似 “张三”干预前后的效果。而这个用来构造“李四”的方法就是倾向评分匹配。
PSM算法的大致流程:
- 选择匹配用的协变量,可以理解为描述用户的变量因素,如人口学特征、消费习惯、品类偏好等
- 计算倾向值并进行匹配,可以理解为用上诉因子加上权重计算出一个用户的得分,并按照得分为实验组的用户匹配出对应的个体。
- 检查协变量的平衡性,实验组和对照组在倾向值上的平衡只是消灭选择性偏误的必要条件,而不是充分条件。倾向值的相等并不意味着所有变量都相等,两个在所有协变量上差异都很大的个体也能够有相同的倾向值。我们还需要一个条件,即用于匹配的各个协变量在两组之间已无明显差异,也就是协变量都平衡了。
- 分析计算增量效果。将两个组效果的平均值之差作为实验组的增量效果,再做一个t检验看看差异是否显著。
PSM可以用于无法构造对照组的场景,比如用户主动参与活动且利益不可差异化的场景,会员开卡之类。
4.与非活动用户对比
听起来不是很科学,但可以给到一个初步对于活动效果“好”、“差”的判断。
结语
花钱做活动,一定是要复盘的,复盘的结论决定了项目是进一步加大投入继续往前走一步,还是直接忍痛割爱。而复盘的核心就是效果怎么算?效率上是否合适?
以上提到的几种寻找对照组的方式,各有千秋。AB TEST的大家的共识高一些,能AB则AB;用户分群依赖于历史数据累积并且含有人为干预;PSM还是依赖于算法团队,有一定的技术基建在;与非活动对比实用性很强,数据直观,但结论上不是客观的增量效果。
网友评论