美文网首页
第18章 方差估计和敏感度提升 ||《可信的线上受控实验 》||

第18章 方差估计和敏感度提升 ||《可信的线上受控实验 》||

作者: zzzzzzzeng | 来源:发表于2021-09-11 08:18 被阅读0次

    1. 方差常见缺陷

    使用错估的方差可能导致实验不可信:

    大于实际方差,导致 FP(第一类错误, 拒绝原假设):计算方差越大,分布越平摊,p值越大

    小于实际方差,导致FN

    1.1. delta 和 percent delta

    percent delta 常用于评估效果,它的方差应该是var(Yt_bar/Yc_bar)。分子分母分别是实验组和控制组的指标均值的抽样分布的均值。

    1.2. ratio metric:分析单元和实验单元不同时

    比如CTR指标的分析单元是点击,而如果实验单元是用户,那么CTR的分析单元和实验单元则不同,也就不满足i.i.d.(独立同分布)。

    虽然可以通过UTR或者计算单个用户的CTR再求均值(而非使用整体click除以view)来替代ctr指标,被称为average of ratio,单这两种计算都只给予了每个用户相同的权重。

    而 ratio of "average of user level metrics", M=X_bar/Y_bar则可以使用 delta method来计算方差。

    delta 方法的CTR方差

    而一些指标无法由两个用户级别的指标计算而来的复合指标,比如页面加载时间的90分位数,则可以使用Bootstrap来获得。(Bootstrap可以参考ab doc)

    1.3. 离群值(outliers)

    离群值对方差的影响大于对均值的影响,书中演示在一个实例中,加入一个离群值,随着离群值逐渐增大,t检验量逐渐减小,最终实验组不再显著优于控制组。因此使用技术方法或场景经验剔除离群值是十分必要的。

    2. 提高敏感度(减小方差)

    提高敏感度,通常即是提高功效,常见的手段则是减小方差,减小方差的方法:

    1. 选择低方差的指标替代同质的高方差的指标:比如使用购买转换率替换购买花销。

    2. capping(设置最大值,大于改值的值转换成最大值), 对长尾数据计算对数指标, 转换成二项分布指标(比如netflix设置将时长是否大于1H生成一个二项分布的指标)。

    3. triggered analysis(第二十章会介绍trigger):移除不受改动影响的用户,从而移除他们带来的噪音。

    4. 用户分层,控制变量法(control variates),CUPED等方法。

      1. 用户分层:仅求和组内方差,剔除组间方差以减小总方差。

      2. 控制变量法

        控制变量法 - 维基百科,自由的百科全书

      3. CUPED

    5. 在更细粒度随机分流实验单元,比如对页面加载时间的影响,在单个页面进行随机分配,而非对每个用户分配一个固定的加载时间。但这会引入缺点

      1. 用户体验不连贯。
      2. 没法计算用户级别的指标:比如用户人均pv,留存等等。
    6. 匹配样本(paired/matched samples):对同一批用户展示对照和控制两组内容:搜索结果排序结果常用。(商务与经济统计举例 工人前后使用两种装配方法,直接用统一工人两组方法的消耗时间之差作为统计量,之后进行单样本的估计和假设检验。)

    7. 多组实验共享对照组

    相关文章

      网友评论

          本文标题:第18章 方差估计和敏感度提升 ||《可信的线上受控实验 》||

          本文链接:https://www.haomeiwen.com/subject/ovpowltx.html