A/B 测试项目
实验概述:免费试用筛选器
在本次实验时,课程目前在课程概览页面上有两个选项:“开始免费试用”和“访问课程资料”。如果学生点击“开始免费试用”,他们将被要求输入他们的信用卡信息,然后他们将参加免费试用课程的付费版本。14天后,除非他们先取消,否则将自动收费。如果学生点击“访问课程资料”,他们将能够免费观看视频并参加测验,但他们不会获得辅导支持或经过验证的证书,他们也不会提交最终项目以获得反馈。
在实验中,测试了一个变化,如果学生点击“开始免费试用”,他们被问到他们有多少时间可以投入课程。如果学生每周表示5小时或更长时间,他们将像往常一样通过结帐流程进行。如果他们每周表示少于5小时,则会显示一条消息,指出Udacity课程通常需要更多的时间才能成功完成,并且建议学生可能希望免费访问课程材料。在这一点上,学生可以选择继续参加免费试用,或免费使用访问课程材料。
我们的假设是,这可能会为学生预先设定更明确的预期,从而减少因为时间不够而离开免费试用的失意学生的数量- 这不会显著减少学生继续超过免费试用并最终完成课程的数量。如果这个假设成立,可以改善整体学生体验,并提高教练支持有可能完成课程的学生的能力。
转移单位是一个cookie,但如果学生参加了免费试用,那么他们将从该用户id开始跟踪。相同的用户ID不能参加免费试用两次。对于未注册的用户,即使他们在访问课程概览页面时已登录,他们的用户ID也不会在实验中进行跟踪。
试验设计
指标选择
Number of cookies:That is, number of unique cookies to view the course overview page. (dmin=3000)
Number of user-ids:That is, number of users who enroll in the free trial. (dmin=50)
Number of clicks: That is, number of unique cookies to click the "Start free trial" button (which happens before the free trial screener is trigger). (dmin=240)
Click-through-probability:That is, number of unique cookies to click the "Start free trial" button divided by number of unique cookies to view the course overview page. (dmin=0.01)
Gross conversion: That is, number of user-ids to complete checkout and enroll in the free trial divided by number of unique cookies to click the "Start free trial" button. (dmin= 0.01)
Retention: That is, number of user-ids to remain enrolled past the 14-day boundary (and thus make at least one payment) divided by number of user-ids to complete checkout. (dmin=0.01)
Net conversion: That is, number of user-ids to remain enrolled past the 14-day boundary (and thus make at least one payment) divided by the number of unique cookies to click the "Start free trial" button. (dmin= 0.0075)
列出你将在项目中使用的不变指标和评估指标。
Invariant Metrics:Number of cookies,Number of clicks,Click-through-probability
Evaluation Metrics:Gross conversion,Retention(剔除),Net conversion
对于每个指标,解释你为什么使用或不使用它作为不变指标或评估指标。此外,说明你期望从评估指标中获得什么样的试验结果。
测量标准偏差
列出你的每个评估指标的标准偏差。
对于每个Evaluation Metrics,计算标准偏差SD。条件当Number of cookies = 5000 pageview时。(使用的不是实验数据,而是基准数据)
根据基准数据,SD=SQRT( P-pool*(1-P-pool)/N )
对于每个评估指标,说明你是否认为分析估计与经验变异是类似还是不同(如果不同,在时间允许的情况下将有必要进行经验估计)。简要说明每个情况的理由。
规模
样本数量和功效
说明你是否会在分析阶段使用Bonferroni校正,并给出实验正确设计所需的页面浏览量。
利用样本计算器,根据给定的α = 0.05,β=0.2,dmin,BCR(基准数据), 算得是unit of analysis中分母的数量,eg.( net conversion, BCR=0.1093, dmin=0.01)
no use of Bonferroni Correction, because the three evaluation metrics are likely covariant.
得出 27411,需要除以点击概率0.08再乘以2 总样本数685275。由于Retention中unit of dividend跟 unit of analysis 不一致,sd异常大于另外两个指标,导致所需pageview过高在计算duration时会出现duration太长不适合实验,因此剔除此指标。总样本数为满足所有指标中最大的需求
持续时间和暴光比例
说明你会将多少百分比的页面流量转入此试验,以及鉴于此条件,你需要多少天来运行试验。
说明你选择所转移流量部分的原因。你认为此试验对优达学城来说有多大风险?
因为此项实验风险很低,fraction of traffic exposed = 1,duration = 685275/ 40000(pre day)≈18取整
试验分析
合理性检查(Sanity Check)
对于每个不变指标,对你在95%置信区间下期望观察到的值、实际观察的值及指标是否通过合理性检查给出结论。
此处用到实验数据,每列的含义是:
综合浏览量: 当天查看课程概览页面的唯一Cookie数量。
点击次数:当天点击课程概览页面的唯一Cookie数量。
注册:当天免费试用中注册的用户ID数量。
付款: 在当天注册的用户ID的数量,以保持注册14天,从而进行付款。(请注意,此栏的日期是开始日期,即注册日期,而不是付款日期,付款在14天后发生,因此,注册和付款的跟踪时间缩短了14天比其他栏。)
实验中不变指标是否合理,对于Number of cookies,Number of clicks,对照组实验组随机分布,满足P=0.5,可以用SD=SQRT( P*(1-P) / (Ncon + Nexp)), Margin of error =SD*Z(1.96), P就是CI的中心,加减M得出CI边界,再计算Pcon观察是否在CI中。
对于Click-through-probability,计算Ppool, SD=SQRT( Ppool*(1-Ppool) / (1/Ncon + 1/Nexp)), CI中心是diff=0,观察实际diff是否在CI中。
对于任何未通过的合理性检查,根据每日数据解释你觉得最有可能的原因。在所有合理性检查通过前,不要开始其他分析工作。
结果分析
效应大小检验
对于每个评估指标,对试验和对照组之间的差异给出 95% 置信区间。说明每个指标是否具有统计和实际显著性。只计算Oct.11 - Nov 2的数据。
合并计算。Gross Conversion
Pooled Probability = ([Total Enrolments Control] + [Total Enrolments Experiment]) / [Total Clicks Control + Total Click Experiment]) = 0.2086
Pooled SE = Square root of: [Pooled Probability] * (1 - [Pooled Probability]) * (1 / [Total Clicks Control] + 1 / [Total Clicks Experiment])) = 0.0044
Control Gross Conversion = 0.218874689
Experiment Gross Conversion = 0.198319815
Margin of error = [Pooled SE] * 1.96 = 0.0086
D hat = -0.02055
Lower CI Bound: [D Hat] - [Margin of Error] = -0.0291
Upper CI Bound: [D Hat] + [Margin of Error] = -0.0120
Statistic Significance, Practical Significance
Net Conversion, [-0.0116, 0.0019], No Statistic Significance, No Practical Significance
符号检验
对于每个评估指标,使用每日数据进行符号检验,然后报告符号检验的 p 值以及结果是否具有统计显著性。
网络计算器,P =0.5,because we assume there's no difference.
Gross, success-4, total-23, P-value=0.0026, two-tail Statistic Significance
Net, success-10, total-23, P-value=0.6776, two-tail No Statistic Significance
汇总
说明你是否使用了Bonferroni 校正,并解释原因。若效应大小假设检验和符号检验之间存在任何差异,描述差异并说明你认为导致差异的原因是什么。
No use of Bonferroni correction, since two metics have correlation, use Bonferroni will be too conservative.
Result same with Effect Size Test.
建议
后续试验
对你会开展的后续试验进行概括说明,你的假设会是什么,你将测量哪些指标,你的转移单位将是什么,以及做出这些选择的理由。
网友评论