1、灰度测试
1.1 基础定义:
灰度测试,就是在某项产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正其中的问题。
灰度测试目的是在做一次比较重大的改版前,要先进行一个小范围的尝试工作,然后再慢慢放量,直到这个全新的功能覆盖到所有的系统用户。也就是说在新功能上线的黑白之间有一个灰,所以这种方法也通常被称为灰度测试。类似于我们通常所说的内测。
1.2 灰度期:
灰度测试开始到结束期间的这一段时间,称为灰度期。
1.3 灰度测试有什么作用?
灰度测试可以及早获得用户的反馈,改进产品功能,提高产品质量,允许用户参与产品测试,增强与用户的互动,并减少受产品升级影响的用户范围。
2、A/B-test显著性检验
2.1 任务定义
A/B-test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用。
一般情况:在实验开始之前,对照组是原本模型的表现情况(A方案)。将我们新提出的方法进行测试(B方案),研究两个方案的好坏。
2.2 目的
A/B-test的目的是随机将测试用户群分为2部分,用户群1使用A方案,用户群2使用B方案,经过一定测试时间后,根据收集到的两方案样本观测数据,根据显著性检验结果选取最好方案。
2.3 常见问题
2.3.1 如何选择样本量,我们最低抽取多少人做A/B-test?
- 样本量太小,得出的结论不靠谱,容易受到偶然因素影响;
- 样本量太大,试错成本就大!
2.3.2 基础评价指标

真实结果(无区别),判断结果(有区别):即我们判断错误了,我们把这类错误叫做第一类错误(Type I error),一般情况下,第一类错误出现的概率用α表示。这个α,就是Significance Level(level)。一般选择5%,即保证第一类错误的概率不超过5%。Statistical Significance=1-level,表示有多大的把握不冤枉好人!
真实结果(无区别),判断结果(无区别)和真实结果(有区别),判断结果(有区别):即我们判断正确。一般把这类正确判断的概率叫做Statistical Power。这类概率一定要要大!
真实结果(有区别),判断结果(无区别):即我们的判断又错了,让有问题的人漏网了。这类错误叫做第二类错误(Type II error),用β表示。根据条件概率的定义,可以计算出β = 1 - power。
总结一下,对于我们的实验:
- 第一类错误α不超过5%。也就是说Statistical Significance =1-α=95%
- 第二类错误β不超过20%。也就是说,Statistical Power = 1 -β = 80%。
3、基础指标:
- 响应时间(RT) :响应时间是指系统对请求作出响应的时间。
- 吞吐量(Throughput) :吞吐量是指系统在单位时间内处理请求的数量。
- 并发用户数:并发用户数是指系统可以同时承载的正常使用系统功能的用户的数量。
- QPS(每秒查询率) :每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。
- TPS(每秒处理事务数):一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。
- OPS(Operates Per Second):一般是操作次数,与qps区别不大。
- PV(页面访问量):即页面浏览量或点击量,用户每次刷新即被计算一次。
- CTR(点击通过率):即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)。
- DAU(Daily Active User 日活跃用户量)。统计一日(统计日)之内,登陆或使用了某个产品的用户数(去重)
- GMV(Gross Merchandise Volume 成交总额):是指下单产生的总金额
参考文献:
灰度测试:https://zhuanlan.zhihu.com/p/124912164
A/B-Tese: https://zhuanlan.zhihu.com/p/75762862
指标:https://www.cnblogs.com/data2value/p/6220859.html
网友评论