美文网首页
第3章:Twyman 法则 以及 实验可信程度 || 《可信的线

第3章:Twyman 法则 以及 实验可信程度 || 《可信的线

作者: zzzzzzzeng | 来源:发表于2021-09-11 08:26 被阅读0次

    Twyman法则:数据越不寻常或越有趣,越可能存在错误。

    1. 对统计结果的一些错误解释(misinterpretation)

    缺乏统计功效(β)

    • 功效释义:如果确实存在假设差异,差异在当前样本量下被检测到的概率。
    • 如果实验效果只对部分用户生效,那么只关注这部分用户的指标是很重要的。因为即使对生效用户产生极大效果的改动,稀释到全局也会效果极为微小。

    误解了p值

    • p值正确含义:假设原假设正确的情况下,得到与实验相等或更极端的结果的概率。
    • 常见误解1:p=0.05代表原假设只有0.05的概率为真
    • 常见误解2:实验结果不显著(p>0.05)表示组别间无差异
      • 释义:置信区间内的任何值都有可能。
    • 常见误解3:p=0.05表示
    • 常见误解4:p=0.05表示错误拒绝原假设(false positive)的概率是0.05。
      • 书中释义:计算FP(p<0.05且原假设仍为真)的概率,需要一些先验概率并使用贝叶斯定理计算。
      • 过往的常见说法:实现会定义显著性水平(significant level)记作α,在实验开始前,α就是第一类错误的概率。(如果假设检验结论拒绝H0,发生I型错误的概率为5%或1%,即100次拒绝H0的结论中,平均有5次或1次是错误的。)
      • 个人理解:置信水平是在实验前设置的参数,而p是实验结束后计算得到的指标值。而书中表示的应该是实验结束后已经计算得到p值,根据目前的信息,假正率是多少。

    p值偷窥:持续观察p值,并在p值小于

    • 有一些支持持续观察p值的方法:《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
    • 互联网公司一般提前计算好需要的样本量和运行时长,比如整周等。

    多重假设检验:多重比较问题

    一些常见的错误:

    1. 观察多个指标(其中一个有效就认为实验能提升这个指标)
    2. p值偷窥
    3. 观察部分用户,比如只观察特定国家,性别,活跃度分组用户。
    4. 观察一连串的实验

    (CHAP17如何解决多重测试的问题)

    2. 置信区间

    • 释义:量化实验效应,而置信水平表示置信区间需要涵盖多宽的实验效应。对于两组无差异的原假设,如果95%的置信区间不包含0,则说明p<0.05。
    • 常见的两个误解:
      1. 分开看实验组和对照组,如果对照和实验两组的置信区间有重叠,则说明两者没有显著差异。
      2. 95%的置信区间表示进行多次实验,有95%的比例会包含真正的实验影响值。对于特定的一次实验,要么包含,要么不包含。

    3. 内部有效性的一些威胁

    内部有效性的含义

    • 不推广人群和时间,只论当前实验涵盖人群和时间的有效性。

    SUTVA的不稳定

    • SUTVA (Stable Unit Treatment Value Assumption):实验单位不收其他用户的影响的假设。

    • 影响该假设的的一些情况

      • 社交网络的泄露(给特定用户发券在社交网络传播)
      • IM软件:微信表情新特性对ios特定版本用户开放,会影响到非开放用户的信息数等。
      • 有协作能力的SaaS:飞书,腾讯文档等。
      • 双边市场:咸鱼,滴滴。比如给滴滴部分用户发券会可能导致被发券用户提升消费量,而滴滴可用车减小,价格上升,对照组用户成功下单量减小等。
      • 资源共享的情况:实验组上线新特性,后台资源问题导致全部用户的加载时间变长。

      (chap22介绍处理这些问题的方法)

    幸存者偏差

    • 分析活跃了一段时间的用户会带来幸存者偏差。

    治疗意向效应(intetion-to-treat)

    • 源自医学治疗,如果用户因为知晓副作用等因素选择不进行治疗,如果最终只分析接受治疗的病人,那么则会带来选择偏差。为避免效应,可以分析提供了治疗建议的全部用户而非受疗用户。

    样本比率偏差问题(Sample Ratio Mismatch, SRM)

    • 实验组进行重导向(页面跳转)
      • 造成SRM的原因
        1. 性能表现差异,页面跳转回需要更多的时间以及存在跳转失败的问题。
        2. Bots,部分机器人可能不在http-equiv="refresh"的页面跳转,或者检测到新页面后,更高频地访问新页面。
      • 解决办法
        1. 服务端解决。
        2. 如果没法在服务端解决,则对两组都同样进行重定位。
    • 有损的数据收集组件
      • 举例:同一个组件(比如信用卡付款广告)放在首页和付款页,可能因为首页表现较差,导致首页的点击被收集/成功曝光/加载时机等原因,最终导致SRM。
    • 遗留效应
      • 新特性上线存在bug, bug即使修复已经影响用户体验。
      • 实验组的用户受到之前实验策略的影响,表现与对照组不同。
      • 解决方案:A/A实验和主动重随机分配。
    • 较差的Hash系统
    • 实验策略引起的SRM
      • 假如给超过三个月未活跃用户发放优惠券邮件提醒,该策略有效。那么下次迭代就会受到SRM影响。(z:不会进行re-randomize吗?)
    • 不同时段的带来的差异
      • 策略下放的时间不同会带来差异,比如美团外卖在下午四点和6点分别在两组发放5元优惠券和10元优惠券,一比较最后的revenue-per-user
    • 数据清洗带来的影响。
      • 一般数据清洗都会有一些基于过去经验的过滤条件,比如播放时长大于特定值的播放上报被过滤,但实验组的新特性可能导致这些过滤条件失效,最终导致实验组部分真实用户的数据被滤除。

    4. 对外部有效性的威胁

    外部有效性的含义

    • 实验效果能否在人群和时间维度扩展的情况下,依然有效

    人群扩展的效果确认方法

    • 新的实验

    时间维度的拓展

    时间维度的拓展通常通过延长实验的时长至数月(保留1%的对照组)来观察。导致时间维度偏差的两大因素是首要效应和新奇效应。

    • 首要效应(primacy effect,个人理解应该叫先前效应)
      • 用户对于产品改变需要适应时间,可能用户更加依赖之前产品的使用方法和路径。
    • 新奇效应
      • 含义:当引入新feature时,尤其是比较容易注意的改动,在一开始人们会好奇这是什么而去使用它,但这种参与度是没法持久的。
      • 解决方法
        1. 绘制用户按时间的参与度,以观察是否存在衰减趋势。如果明显衰减,可以延长时间以观察趋于平缓后是否仍然存在显著效果。
        2. CHAP23介绍更多新奇效应的内容

    5. 人群差异

    一些不错的分组方法(维度)

    1. 地理位置:国家,地区,语言。
    2. 设备或平台:系统平台:ios/android,手机品牌,浏览器种类,app版本等。
    3. 时间:time of day/ day of week
    4. 用户类型:活跃度,是否新用户
    5. 用户属性:Netflix个人账户或家庭账户等

    z:这些维度也是在非a/b实验的平常数据监控和展示时常关注的。

    实验中分组查看数据常有两种方法:

    1. 不分A/B对比各组的汇总数据:不同平台的CTR。
    2. 分A/B组查看各组的数据
      1. 这种方式可以带来更多的见解和发现,譬如新上的功能对新用户的留存促进显著而对老用户无显著作用,且整体无显著作用。

    分组分析可能会带来误解

    • 举例了用户在不同组别间的流动。
    • 因此,分组的特征最好是比较固定的,不会流动,至少保证不受实验因素而改动。

    辛普森悖论

    定义

    • 在某个条件下的两组数据,分别讨论都会满足某种性质,可一旦合并考虑却会导致相反的结论。

    特点

    • 整体被分配到两个组别时,在分组的特征上两组的分布是不均衡的。

    相关文章

      网友评论

          本文标题:第3章:Twyman 法则 以及 实验可信程度 || 《可信的线

          本文链接:https://www.haomeiwen.com/subject/ftmowltx.html