如何回答数据职位面试中，T-Test Z-Test 的区别？

作者: Yan文怡 | 来源:发表于2020-03-29 12:54 被阅读0次

如何回答数据职位面试中，T-Test Z-Test 的区别？
Z-test , T-test 的区别
Z-Test与T-Test的区别
【吐血整理】前端求职面试资源分享，值得收藏！
T-test 、 pvalue FDR矫正 R语言实现付代码实
数据分析师和数据工程师的区别是什么?
数据分析师，数据挖掘师，大数据工程师，三者的工作有何区别？
HashMap和HashTable的不同？
iOS复习之Block
Java之Integer和int的区别

在北美求职大数据工作岗位的同学，在面试中都会被问到一些统计概念。

其中最常被问到的就是请说一下，t test 和 z test 的区别是什么。

还有一些面试官，喜欢变着花样问，比如他们给你一组数据，问你这组数据应该用哪种统计方法来检验？

我们首先想一想，面试官为什么会问这个问题？

有同学说，我记得大学统计课学了很多种不同的检验啊。为什么面试问的“最多”的是这两种检验，而不是其他的检验呢？

因为，在互联网行业中，我们会做大量的AB测试，比如哪种颜色的支付按钮支付率会高，哪种页面设置，会让用户多下单？

为了评价这种实验的结果，我们用到的就是z test 或者 t test。

答题的要点

不太好的回答

我培训过不少学生，也面试过不少求职者。有几种不理想的回答是这样子的：

1）完全不懂

2）概念搞混。和很多其他统计测试搞混。比如会和F检验，卡方检验概念搞错

3）不系统。想到什么说什么

4）纯背诵。因为知道面试经常问这类问题，所以把他们区别背了下。但，面试官紧跟着问了一个问题的话，面试同学就完全不知道如何解答了

好的回答

什么是好的回答呢？

一个好的回答，要有系统性，回答要有框架。

其实有框架套用在所有的面试回答中，哪怕是case study，回答也是需要framework。

框架可以帮你理清你的思路，也可以让倾听者更容易理解。

这道题目如何套用框架呢？

首先我们知道几乎所有的统计检验，都有几个必要组成元素。

1）假设(assumption)

2）样本量(sample size)

3）公式(formula)

4）分布图(distribution chart)

5）查表(P value lookup table)

1）假设(assumption)

从assumption来看，他们需要所有的样本点都是随机且独立的。从这一点来说，两者都一样，没有区别。

（特例：t test 里有一种paired samples, 也叫dependent sample t-test，它assumption的样本是非独立的。我们不用深究这个。第一，面试普通数据职位通常不会涉及这个概念，第二，这一种类型的t test不常用，所以我们不展开）

2）样本量

通常z test 要求至少大于30，t test 没有样本要求，所以小于30的样本可以用t test。

那问题来了，如果样本都大于30呢？两个都能用吗？我们看看公式。

3）公式

我们看到分母部分的标准差有区别，一个是σ，一个需要带入总体标准差，而t带入的是样本标准差。

从公式，我们可以知道，如果知道总体标准差的话，我们可以用z test，但是如果总体标准差，我们无法得知的话，那就用t test。

具体的例子有什么呢？

小C觉得他们公司的女孩子的体重应该都是100斤以下的，然后他问了50个女孩子的体重，得出平均体重是98斤，方差是20斤。

这种呢，就属于总体方差未知，但是知道样本方差的。所以我们用t检验。

4）分布图

我们看到 t test 有好多个正态分布的线，随着样本量的不同他们的形状发生相应的变化，

而z test 的分布图只有一根正态分布，它没有因为样本的数据而发生变化，我们也把z test的分布图叫做 standard normal distribution。

如果把他们放在一起看的话，我们发现当样本量小于30的时候(前两张图)，他们两者之间的形状还是有些区别的，但是当样本大于30的时候，他们的形状已经趋近一致了。

这个动态的网站，可以体验一下，非常直观了解两者区别。
Normal Distribution vs. t-distribution

5）查表

我们发现z test只需要根据公式得出z score，带着z score，和置信区间，查表得出P value 就可以

而t test，不仅需要带入t 值，还需要结合样本量一起看，查找P value

总结

通过这5种比较，是不是t test 和 z test 的区别就非常清楚了？

有没有发现关键因素就在于总体方差是否已知，样本量是多少？

我们最后用树形图理一下思路。

最后再提一句，由于北美面试的对话风格是问什么回答什么，啰里八嗦说一堆，可能会让人觉得不切要点。
所以，我的建议的是如果你非常了解这两者区别的话，直接说，方差和样本量，也未尝不可。但是要注意，随时准备你回答完毕之后，面试官可能follow up的问题。

后续

有同学会问，那工作中的A/B测试中的t test， z test，也是这么用的吗？课堂里的统计课好像没有互联网AB测试的例子，我的概念还是很模糊。

其实工作中的AB测试会复杂一点，主要是two samples，而不是我们上面举的one sample的例子，但是以上文章开头提到的基本5点是不变的。

下一篇文章会继续分析AB测试如何用tow sample test里的t test和 z test。

完。

网友评论

@产品

本文标题：如何回答数据职位面试中，T-Test Z-Test 的区别？

本文链接：https://www.haomeiwen.com/subject/ujgyuhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

如何回答数据职位面试中，T-Test Z-Test 的区别？

我们首先想一想，面试官为什么会问这个问题？

答题的要点

不太好的回答

好的回答

1）假设(assumption)

2）样本量

3）公式

4）分布图

5）查表

总结

后续

相关文章