本文记录 AB Test 评估准则,用于指导 AB Test设计
度量选择
标准 | 符合要求 |
---|---|
是否为试验选择了适当的不变量和评估指标? | 已为试验选好一组适当的度量,未遗漏任何必要或重要度量。 |
是否为度量选择提供了合理理由? | 每个度量都有清楚合理的理由,解释为何将其选作不变度量及评估度量。 |
我们希望通过开展此试验得到什么结果? | 报告中清楚地说明了我们希望通过开展此试验取得的结果,且所述结果与试验目的一致。 |
变异性
标准 | 符合要求 |
---|---|
是否正确计算了所有评估度量的标准偏差? | 已正确计算所有评估度量的标准偏差。 |
是否通过推理说明每个分析标准偏差是正确的? | 每个评估度量都有清楚正确的解释,说明分析变异性是否可能匹配经验变异性。 |
规模
标准 | 符合要求 |
---|---|
页面浏览量是否正确考虑了计划的分析? | 考虑到学生是否使用 Bonferroni 校正情况下所给的页面浏览量是正确的。 |
是否基于风险选择了适当的试验暴露水平? | 将对试验的风险等级提供理由充分的论点,并将相应选择转移流量的部分。 |
试验的持续时间是否正确考虑了暴露? | 试验的持续时间在考虑到所选转移流量部分后进行了正确计算。 |
完整性检验
标准 | 符合要求 |
---|---|
是否正确执行了完整性检查? | 正确计算了所选的所有不变度量的完整性检查。 |
是否分析了完整性检查的结果? | 评估了完整性检查:通过或未通过。 若未通过完整性检查,通过分析探索了失败原因并中止试验。 |
效应量检验
标准 | 符合要求 |
---|---|
是否对所有评估度量的差异计算了置信区间? | 正确计算了置信区间并报告了所有评估度量的差异。 |
是否正确评估了统计显著性与实际显著性? | 正确报告了所有评估度量的统计显著性与实际显著性。 |
符号检验
标准 | 符合要求 |
---|---|
是否对每个评估度量报告了符号检验 P 值,并表明符号检验是否具有统计显著性? | 对所有评估度量正确报告了 P 值和统计显著性。 |
结果汇总
标准 | 符合要求 |
---|---|
是否提供了正当理由,说明是否选择使用 Bonferroni 校正? | 报告为是否选择使用 Bonferroni 校正提供了合理理由。 |
是否分析了效应量检验和符号检验之间的所有差异? | 为效应量检验和符号检验之间的每项差异提供了充分合理的解释。 |
建议
标准 | 符合要求 |
---|---|
是否基于试验结果提供了合理建议? | 提供了合理并用数据支持的建议。 |
根进实验
标准 | 符合要求 |
---|---|
是否为所给目的进行了合理的试验,并提出了明确的假设? | 开展了值得检验的合理试验,并明确说明了试验结果假设。 |
是否为提议的试验选择了适当的评估度量,并提供了支持推理? | 报告中选择的度量足以用于评估试验的假设,可在大多数基础设施下进行测量,且报告中提供了充足的支持推理。 |
是否为试验选择了合理的转移单位? | 报告中说明了合理的转移单位,并提供了充分的支持理由。 |
网友评论