第3章：Twyman 法则以及实验可信程度 || 《可信的线

作者: zzzzzzzeng | 来源:发表于2021-09-11 08:26 被阅读0次

第3章：Twyman 法则以及实验可信程度 || 《可信的线
节点静态可信扩展过程
为什么我一直没有进步
SD和SE的区别
节点可信计算框架
什么是可信执行环境
2.5 慢慢变富 – 顺势而为，无为无不为
一些营养学资源
《策略思维——商界、政界及日常生活中的策略竞争》读书笔记五
做事风雨无阻。

Twyman法则：数据越不寻常或越有趣，越可能存在错误。

1. 对统计结果的一些错误解释(misinterpretation)

缺乏统计功效（β）

功效释义：如果确实存在假设差异，差异在当前样本量下被检测到的概率。
如果实验效果只对部分用户生效，那么只关注这部分用户的指标是很重要的。因为即使对生效用户产生极大效果的改动，稀释到全局也会效果极为微小。

误解了p值

p值正确含义：假设原假设正确的情况下，得到与实验相等或更极端的结果的概率。
常见误解1：p=0.05代表原假设只有0.05的概率为真
常见误解2：实验结果不显著（p>0.05）表示组别间无差异
- 释义：置信区间内的任何值都有可能。
常见误解3：p=0.05表示
常见误解4：p=0.05表示错误拒绝原假设（false positive)的概率是0.05。
- 书中释义：计算FP（p<0.05且原假设仍为真）的概率，需要一些先验概率并使用贝叶斯定理计算。
- 过往的常见说法：实现会定义显著性水平（significant level)记作α，在实验开始前，α就是第一类错误的概率。（如果假设检验结论拒绝H0，发生I型错误的概率为5%或1%，即100次拒绝H0的结论中，平均有5次或1次是错误的。）
- 个人理解：置信水平是在实验前设置的参数，而p是实验结束后计算得到的指标值。而书中表示的应该是实验结束后已经计算得到p值，根据目前的信息，假正率是多少。

p值偷窥：持续观察p值，并在p值小于

有一些支持持续观察p值的方法：《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
互联网公司一般提前计算好需要的样本量和运行时长，比如整周等。

多重假设检验：多重比较问题

一些常见的错误：

观察多个指标（其中一个有效就认为实验能提升这个指标）
p值偷窥
观察部分用户，比如只观察特定国家，性别，活跃度分组用户。
观察一连串的实验

（CHAP17如何解决多重测试的问题)

2. 置信区间

释义：量化实验效应，而置信水平表示置信区间需要涵盖多宽的实验效应。对于两组无差异的原假设，如果95%的置信区间不包含0，则说明p<0.05。
常见的两个误解：
1. 分开看实验组和对照组，如果对照和实验两组的置信区间有重叠，则说明两者没有显著差异。
2. 95%的置信区间表示进行多次实验，有95%的比例会包含真正的实验影响值。对于特定的一次实验，要么包含，要么不包含。

3. 内部有效性的一些威胁

内部有效性的含义

不推广人群和时间，只论当前实验涵盖人群和时间的有效性。

SUTVA的不稳定

SUTVA (Stable Unit Treatment Value Assumption)：实验单位不收其他用户的影响的假设。
影响该假设的的一些情况
- 社交网络的泄露（给特定用户发券在社交网络传播）
- IM软件：微信表情新特性对ios特定版本用户开放，会影响到非开放用户的信息数等。
- 有协作能力的SaaS：飞书，腾讯文档等。
- 双边市场：咸鱼，滴滴。比如给滴滴部分用户发券会可能导致被发券用户提升消费量，而滴滴可用车减小，价格上升，对照组用户成功下单量减小等。
- 资源共享的情况：实验组上线新特性，后台资源问题导致全部用户的加载时间变长。
(chap22介绍处理这些问题的方法）

幸存者偏差

分析活跃了一段时间的用户会带来幸存者偏差。

治疗意向效应(intetion-to-treat)

源自医学治疗，如果用户因为知晓副作用等因素选择不进行治疗，如果最终只分析接受治疗的病人，那么则会带来选择偏差。为避免效应，可以分析提供了治疗建议的全部用户而非受疗用户。

样本比率偏差问题(Sample Ratio Mismatch, SRM)

实验组进行重导向（页面跳转）
- 造成SRM的原因
  1. 性能表现差异，页面跳转回需要更多的时间以及存在跳转失败的问题。
  2. Bots，部分机器人可能不在http-equiv="refresh"的页面跳转，或者检测到新页面后，更高频地访问新页面。
- 解决办法
  1. 服务端解决。
  2. 如果没法在服务端解决，则对两组都同样进行重定位。
有损的数据收集组件
- 举例：同一个组件（比如信用卡付款广告）放在首页和付款页，可能因为首页表现较差，导致首页的点击被收集/成功曝光/加载时机等原因，最终导致SRM。
遗留效应
- 新特性上线存在bug, bug即使修复已经影响用户体验。
- 实验组的用户受到之前实验策略的影响，表现与对照组不同。
- 解决方案：A/A实验和主动重随机分配。
较差的Hash系统
实验策略引起的SRM
- 假如给超过三个月未活跃用户发放优惠券邮件提醒，该策略有效。那么下次迭代就会受到SRM影响。（z:不会进行re-randomize吗？）
不同时段的带来的差异
- 策略下放的时间不同会带来差异，比如美团外卖在下午四点和6点分别在两组发放5元优惠券和10元优惠券，一比较最后的revenue-per-user
数据清洗带来的影响。
- 一般数据清洗都会有一些基于过去经验的过滤条件，比如播放时长大于特定值的播放上报被过滤，但实验组的新特性可能导致这些过滤条件失效，最终导致实验组部分真实用户的数据被滤除。

4. 对外部有效性的威胁

外部有效性的含义

实验效果能否在人群和时间维度扩展的情况下，依然有效

人群扩展的效果确认方法

新的实验

时间维度的拓展

时间维度的拓展通常通过延长实验的时长至数月（保留1%的对照组）来观察。导致时间维度偏差的两大因素是首要效应和新奇效应。

首要效应(primacy effect，个人理解应该叫先前效应)
- 用户对于产品改变需要适应时间，可能用户更加依赖之前产品的使用方法和路径。
新奇效应
- 含义：当引入新feature时，尤其是比较容易注意的改动，在一开始人们会好奇这是什么而去使用它，但这种参与度是没法持久的。
- 解决方法
  1. 绘制用户按时间的参与度，以观察是否存在衰减趋势。如果明显衰减，可以延长时间以观察趋于平缓后是否仍然存在显著效果。
  2. CHAP23介绍更多新奇效应的内容

5. 人群差异

一些不错的分组方法(维度）

地理位置：国家，地区，语言。
设备或平台：系统平台：ios/android，手机品牌，浏览器种类，app版本等。
时间：time of day/ day of week
用户类型：活跃度，是否新用户
用户属性：Netflix个人账户或家庭账户等

z：这些维度也是在非a/b实验的平常数据监控和展示时常关注的。

实验中分组查看数据常有两种方法：

不分A/B对比各组的汇总数据：不同平台的CTR。
分A/B组查看各组的数据
1. 这种方式可以带来更多的见解和发现，譬如新上的功能对新用户的留存促进显著而对老用户无显著作用，且整体无显著作用。

分组分析可能会带来误解

举例了用户在不同组别间的流动。
因此，分组的特征最好是比较固定的，不会流动，至少保证不受实验因素而改动。

辛普森悖论

定义

在某个条件下的两组数据，分别讨论都会满足某种性质，可一旦合并考虑却会导致相反的结论。

特点

整体被分配到两个组别时，在分组的特征上两组的分布是不均衡的。

网友评论

本文标题：第3章：Twyman 法则以及实验可信程度 || 《可信的线

本文链接：https://www.haomeiwen.com/subject/ftmowltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第3章：Twyman 法则以及实验可信程度 || 《可信的线

1. 对统计结果的一些错误解释(misinterpretation)

缺乏统计功效（β）

误解了p值

p值偷窥：持续观察p值，并在p值小于

多重假设检验：多重比较问题

2. 置信区间

3. 内部有效性的一些威胁

内部有效性的含义

SUTVA的不稳定

幸存者偏差

治疗意向效应(intetion-to-treat)

样本比率偏差问题(Sample Ratio Mismatch, SRM)

4. 对外部有效性的威胁

外部有效性的含义

人群扩展的效果确认方法

时间维度的拓展

5. 人群差异

一些不错的分组方法(维度）

分组分析可能会带来误解

辛普森悖论

相关文章

第3章：Twyman 法则以及实验可信程度 || 《可信的线

节点静态可信扩展过程

为什么我一直没有进步

SD和SE的区别

节点可信计算框架

什么是可信执行环境

2.5 慢慢变富 – 顺势而为，无为无不为

一些营养学资源

《策略思维——商界、政界及日常生活中的策略竞争》读书笔记五

做事风雨无阻。

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第3章：Twyman 法则 以及 实验可信程度 || 《可信的线

1. 对统计结果的一些错误解释(misinterpretation)

缺乏统计功效（β）

误解了p值

p值偷窥：持续观察p值，并在p值小于

多重假设检验：多重比较问题

2. 置信区间

3. 内部有效性的一些威胁

内部有效性的含义

SUTVA的不稳定

幸存者偏差

治疗意向效应(intetion-to-treat)

样本比率偏差问题(Sample Ratio Mismatch, SRM)

4. 对外部有效性的威胁

外部有效性的含义

人群扩展的效果确认方法

时间维度的拓展

5. 人群差异

一些不错的分组方法(维度）

分组分析可能会带来误解

辛普森悖论

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第3章：Twyman 法则以及实验可信程度 || 《可信的线