关注我!只要10分钟,包你学会数据分析
你了解AB测试吗?
这是互联网从业人员经常面对来自于领导和面试官的灵魂拷问了。
如果你回答:
“把用户分为两拨儿,一拨儿依然使用旧版本产品,另一拨儿测试新版本产品,最后比较两拨儿人的指标,比如转化率,人均利润等等,看哪拨儿用户的指标结果好,就说明哪版产品更好,为后续产品更新迭代提供数据支持。“
那么,面试官一定会露出尴尬😅而不失礼貌的微笑。
这个答案吧,对倒是对的;
但是对于一个专业的互联网从业人员而言,却又太太太肤浅啦!
-
如何进行流量分桶和分层?
-
如何确定实验的最小样本量?
-
想做AB测试的组那么多,总不能让大家排队吧?
快跟着我,了解一下~
为什么要进行AB测试?
假如我们公司有一款交友软件。
老版本中是多用户展示,你喜欢谁就点进谁的头像,看他的主页,再添加好友聊天,很受产品小姐姐的喜欢。
我们现在有了一版新的设计,新版本加入了手势元素,喜欢就右划,立即可以添加为好友,极大地简化了交友流程,很受研发小哥哥的喜爱。
这两版设计,到底哪个会更受用户欢迎呢?至于KPI嘛,哪版能让DAU更高,ARPU更高,或者Retention更高呢?
那么问题就来了,到底选哪个版本呢?
总不能,听产品经理的吧?
AB测试的分桶
这个时候,我们就需要进行对比实验啦。
设计一种Hash算法,把流量按照Hash值分成n个桶(bucket),每个桶中都包含1/n的流量。
Hash算法保证了每个桶中用户都是在同一时间维度,且具有特征相似属性😊。
时间的统一性有效的规避了因为时间、季节等因素带来的影响,而属性的相似性则使得地域、性别、年龄等等其他因素对效果统计的影响降至最低。
这样一来,产品设计就变成了AB两组用户中的唯一变量,如果最后B版的用户反馈比A版好,那我们就有很大的信心说,B比A好,上B!
AB测试的应用场景除了产品改版外,还有很多。
比如:
-
市场营销人员的话术文案对比;
-
用户研究人员的人群特性对比;
-
运营人员线上产品功能点对比;
这些场景通过科学的AB测试都可以得出用户更加偏爱的方案,帮你完成KPI,转型CEO,赢取白富美,走上人生巅峰😄。
AB测试的分层实验模型
想做AB测试的组那么多,如何让众多的AB实验同时进行,且互不影响?
在实际工作中,往往有很多部门的业务人员希望在同一时间进行AB测试,该怎么排期呢?
总不能让大家排队等着吧?毕竟互联网行业瞬息万变,等着UI算法文案设计挨个做完Test,公司估计都耗到倒闭了...
解决办法当然是有的,就是大家同时做AB测试咯!
只要保证各个实验之间,具有正交性。
并行随机分流,了解一下?
分层实验模型可以达到采样相似性,采样代表性和流量共用性。
在并行实验区域,不同的实验属于不同的层,每个实验内部又可以划分为多层,每层之间互不干扰,并且每层流量被重新打散,从而实现每层之间流量的正交性。
第二层中每个实验(experiment)的流量,是由第一层实验中的流量均匀随机分配而来的,这样就能保证,第二层的用户,都受到了来自第一层同样的影响。
换言之,第二层的用户依然都满足了每个桶中用户都是在同一时间维度,且具有特征相似属性。
不论你想做多少个实验,只要按照“并行随机分流”的方式不断向下延伸层数就可以了,互不干扰,效率感人。
UI算法和文案,终于可以一起上。
紧随最IN的节奏,轻松完成KPI😏。
上项目 - 实统计战
对于一个实验来说,最理想的情况,就是在一个可接受的显著性水平下,尽量使用较少的样本,最大化统计检验的Power。
嗯... 说人话行吗?
最大化AB实验可靠性的概率,同时把研究成本,实验时长,所用流量控制到最小。
于是,产品经理和数据分析经理确认了如下几个问题。
-
当KPI(比如DAU)变化2%时,认为AB两组实验有明显差别;
-
在2%的提升度下,希望有90%的把握检测到异常;
-
希望有95%的把握,不要误报AB测试的差异显著。
“没问题,安排!”
将业务要求转化为统计术语:
即灵敏度(提升度)E=0.02*历史均值,
功效Power=0.9;
置信度为0.05。
根据最小样本量的计算公式,可到得到这个业务的实验要求每个实验版本的最小样本量。
如果业务方感觉实验要求的样本量太大,短时间难以实现,那么适当的降低灵敏度,置信度和功效,就可以Balanced解决这个问题哦!
至此,面试官的脸上终于露出了“真诚”的笑容,“同学,看你讲的提纲挈领,从算法结构到统计公式都深入浅出,资料给我一份,好吧?“
当然没问题!
只要在后台(shixiaoxiu21)回复“AB测试”,动态精美的PPT立刻领回家😏!
作者:石小秀
悉尼大学IT硕士
心灵鸡汤百万+阅读作者
前中国银行·悉尼分行数据分析从业人员
现任某知名大厂大数据分析师
网友评论