美文网首页@产品
如何回答数据职位面试中,T-Test Z-Test 的区别?

如何回答数据职位面试中,T-Test Z-Test 的区别?

作者: Yan文怡 | 来源:发表于2020-03-29 12:54 被阅读0次

    在北美求职大数据工作岗位的同学,在面试中都会被问到一些统计概念。

    其中最常被问到的就是请说一下,t test 和 z test 的区别是什么。

    还有一些面试官,喜欢变着花样问,比如他们给你一组数据,问你这组数据应该用哪种统计方法来检验?

    我们首先想一想,面试官为什么会问这个问题?

    有同学说,我记得大学统计课学了很多种不同的检验啊。为什么面试问的“最多”的是这两种检验,而不是其他的检验呢?

    因为,在互联网行业中,我们会做大量的AB测试,比如哪种颜色的支付按钮支付率会高,哪种页面设置,会让用户多下单?

    为了评价这种实验的结果,我们用到的就是z test 或者 t test。

    答题的要点

    不太好的回答

    我培训过不少学生,也面试过不少求职者。有几种不理想的回答是这样子的:

    1)完全不懂

    2)概念搞混。和很多其他统计测试搞混。比如会和F检验,卡方检验概念搞错

    3)不系统。想到什么说什么

    4)纯背诵。因为知道面试经常问这类问题,所以把他们区别背了下。但,面试官紧跟着问了一个问题的话,面试同学就完全不知道如何解答了

    好的回答

    什么是好的回答呢?

    一个好的回答,要有系统性,回答要有框架。

    其实有框架套用在所有的面试回答中,哪怕是case study,回答也是需要framework。

    框架可以帮你理清你的思路,也可以让倾听者更容易理解。

    这道题目如何套用框架呢?

    首先我们知道几乎所有的统计检验,都有几个必要组成元素。

    1)假设(assumption)

    2)样本量(sample size)

    3)公式(formula)

    4)分布图(distribution chart)

    5)查表(P value lookup table)

    1)假设(assumption)

    从assumption来看,他们需要所有的样本点都是随机且独立的。从这一点来说,两者都一样,没有区别。

    (特例:t test 里有一种paired samples, 也叫dependent sample t-test,它assumption的样本是非独立的。我们不用深究这个。第一,面试普通数据职位通常不会涉及这个概念,第二,这一种类型的t test不常用,所以我们不展开)

    2)样本量

    通常z test 要求至少大于30,t test 没有样本要求,所以小于30的样本可以用t test。

    那问题来了,如果样本都大于30呢?两个都能用吗?我们看看公式。

    3)公式

    我们看到分母部分的标准差有区别,一个是σ,一个需要带入总体标准差,而t带入的是样本标准差。

    从公式,我们可以知道,如果知道总体标准差的话,我们可以用z test,但是如果总体标准差,我们无法得知的话,那就用t test。

    具体的例子有什么呢?

    小C觉得他们公司的女孩子的体重应该都是100斤以下的,然后他问了50个女孩子的体重,得出平均体重是98斤,方差是20斤。

    这种呢,就属于总体方差未知,但是知道样本方差的。 所以我们用t检验。

    4) 分布图

    我们看到 t test 有好多个正态分布的线,随着样本量的不同他们的形状发生相应的变化,

    而z test 的分布图只有一根正态分布,它没有因为样本的数据而发生变化,我们也把z test的分布图叫做 standard normal distribution。

    如果把他们放在一起看的话,我们发现当样本量小于30的时候(前两张图),他们两者之间的形状还是有些区别的,但是当样本大于30的时候,他们的形状已经趋近一致了。

    这个动态的网站,可以体验一下,非常直观了解两者区别。
    Normal Distribution vs. t-distribution

    5)查表

    我们发现z test只需要根据公式得出z score,带着z score,和置信区间,查表得出P value 就可以

    而t test,不仅需要带入t 值,还需要结合样本量一起看,查找P value

    总结

    通过这5种比较,是不是t test 和 z test 的区别就非常清楚了?

    有没有发现关键因素就在于总体方差是否已知,样本量是多少?

    我们最后用树形图理一下思路。

    最后再提一句,由于北美面试的对话风格是问什么回答什么,啰里八嗦说一堆,可能会让人觉得不切要点。
    所以,我的建议的是如果你非常了解这两者区别的话,直接说,方差和样本量,也未尝不可。但是要注意,随时准备你回答完毕之后,面试官可能follow up的问题。

    后续

    有同学会问,那工作中的A/B测试中的t test, z test,也是这么用的吗?课堂里的统计课好像没有互联网AB测试的例子,我的概念还是很模糊。

    其实工作中的AB测试会复杂一点,主要是two samples,而不是我们上面举的one sample的例子,但是以上文章开头提到的基本5点是不变的。

    下一篇文章会继续分析AB测试如何用tow sample test里的t test和 z test。

    完。

    相关文章

      网友评论

        本文标题:如何回答数据职位面试中,T-Test Z-Test 的区别?

        本文链接:https://www.haomeiwen.com/subject/ujgyuhtx.html