在北美求职大数据工作岗位的同学,在面试中都会被问到一些统计概念。
其中最常被问到的就是请说一下,t test 和 z test 的区别是什么。
还有一些面试官,喜欢变着花样问,比如他们给你一组数据,问你这组数据应该用哪种统计方法来检验?
我们首先想一想,面试官为什么会问这个问题?
有同学说,我记得大学统计课学了很多种不同的检验啊。为什么面试问的“最多”的是这两种检验,而不是其他的检验呢?
因为,在互联网行业中,我们会做大量的AB测试,比如哪种颜色的支付按钮支付率会高,哪种页面设置,会让用户多下单?
为了评价这种实验的结果,我们用到的就是z test 或者 t test。
答题的要点
不太好的回答
我培训过不少学生,也面试过不少求职者。有几种不理想的回答是这样子的:
1)完全不懂
2)概念搞混。和很多其他统计测试搞混。比如会和F检验,卡方检验概念搞错
3)不系统。想到什么说什么
4)纯背诵。因为知道面试经常问这类问题,所以把他们区别背了下。但,面试官紧跟着问了一个问题的话,面试同学就完全不知道如何解答了
好的回答
什么是好的回答呢?
一个好的回答,要有系统性,回答要有框架。
其实有框架套用在所有的面试回答中,哪怕是case study,回答也是需要framework。
框架可以帮你理清你的思路,也可以让倾听者更容易理解。
这道题目如何套用框架呢?
首先我们知道几乎所有的统计检验,都有几个必要组成元素。
1)假设(assumption)
2)样本量(sample size)
3)公式(formula)
4)分布图(distribution chart)
5)查表(P value lookup table)
1)假设(assumption)
从assumption来看,他们需要所有的样本点都是随机且独立的。从这一点来说,两者都一样,没有区别。
(特例:t test 里有一种paired samples, 也叫dependent sample t-test,它assumption的样本是非独立的。我们不用深究这个。第一,面试普通数据职位通常不会涉及这个概念,第二,这一种类型的t test不常用,所以我们不展开)
2)样本量
通常z test 要求至少大于30,t test 没有样本要求,所以小于30的样本可以用t test。
那问题来了,如果样本都大于30呢?两个都能用吗?我们看看公式。
3)公式
我们看到分母部分的标准差有区别,一个是σ,一个需要带入总体标准差,而t带入的是样本标准差。
从公式,我们可以知道,如果知道总体标准差的话,我们可以用z test,但是如果总体标准差,我们无法得知的话,那就用t test。
具体的例子有什么呢?
小C觉得他们公司的女孩子的体重应该都是100斤以下的,然后他问了50个女孩子的体重,得出平均体重是98斤,方差是20斤。
这种呢,就属于总体方差未知,但是知道样本方差的。 所以我们用t检验。
4) 分布图
我们看到 t test 有好多个正态分布的线,随着样本量的不同他们的形状发生相应的变化,
而z test 的分布图只有一根正态分布,它没有因为样本的数据而发生变化,我们也把z test的分布图叫做 standard normal distribution。
如果把他们放在一起看的话,我们发现当样本量小于30的时候(前两张图),他们两者之间的形状还是有些区别的,但是当样本大于30的时候,他们的形状已经趋近一致了。
这个动态的网站,可以体验一下,非常直观了解两者区别。
Normal Distribution vs. t-distribution
5)查表
我们发现z test只需要根据公式得出z score,带着z score,和置信区间,查表得出P value 就可以
而t test,不仅需要带入t 值,还需要结合样本量一起看,查找P value
总结
通过这5种比较,是不是t test 和 z test 的区别就非常清楚了?
有没有发现关键因素就在于总体方差是否已知,样本量是多少?
我们最后用树形图理一下思路。
最后再提一句,由于北美面试的对话风格是问什么回答什么,啰里八嗦说一堆,可能会让人觉得不切要点。
所以,我的建议的是如果你非常了解这两者区别的话,直接说,方差和样本量,也未尝不可。但是要注意,随时准备你回答完毕之后,面试官可能follow up的问题。
后续
有同学会问,那工作中的A/B测试中的t test, z test,也是这么用的吗?课堂里的统计课好像没有互联网AB测试的例子,我的概念还是很模糊。
其实工作中的AB测试会复杂一点,主要是two samples,而不是我们上面举的one sample的例子,但是以上文章开头提到的基本5点是不变的。
下一篇文章会继续分析AB测试如何用tow sample test里的t test和 z test。
完。
网友评论