通常在研究中,我们会对已有的一些结论或者主张抱有合理的质疑 reasonable doubt,此时该如何通过概率统计的方式定量的证实这个结论的正确与否,就需要用到假设检验。这个已有的结论或主张在概率的语境中称为“假设” Hypothesis,对应的对这个主张的求证的过程,称为“检验” Test。假设检验的基本过程是首先假设样本某方面的参数是否符合某个假设而建立两个互斥的判断条件:
-
零假设 Null hypothesis:H0
-
备选假设 Alternative hypothesis:Ha
之后通过从总体中进行抽样,对目标参数进行统计,然后根据样本统计数据来定量的推断总体的参数符合哪一个假设。在实际应用中,将哪个假设设置为零假设以及备选假设不一定是一目了然的,需要结合研究的对象具体判断。
将备选假设设置为研究假设 Research hypothesis 的情形
在很多应用中都涉及到要通过搜集证据来支持引入某些新方法或新功能会对现状有所改善的研究假设,此时可能将备选假设设置为研究者期望得到的结果。更具体地,假设工程师希望测试一个新开发的引擎能否实现燃油效率超过 24 英里/加仑,那么此时可以将两个假设设置为:
-
零假设 Null hypothesis:H0: μ ≤ 24
-
备选假设 Alternative hypothesis:Ha: μ > 24
如果通过抽样得到的燃油效率的均值 ≤ 24,那么此时就将无法拒绝零假设,也即新的设计并未改善燃油效率。反之,如果抽样得到的燃油效率的均值 > 24,那么此时可以拒绝零假设而选择支持备选假设。
零假设作为需要被挑战的假定
在很多其他的应用中,需要研究的对象是对总体的某个特征或参数的一个假定,此时,一般将这个假定设置为零假设。通过假设检验需要实现的是对于这个假定进行挑战,进而确认是否能够拒绝零假设而支持备选假设。更具体地,假设某个饮料的容量标示为 300 ml,此时假定其标示是正确的,即:
-
零假设 Null hypothesis:H0: μ ≥ 300
-
备选假设 Alternative hypothesis:Ha: μ < 300
如果经过抽样得出的结论支持零假设,则证明无需采取任何行动。否则,消费者可能会考虑起诉饮料公司。
而从公司经营的角度,如果饮料持续超标准容量罐装,则会产生额外的生产成本,因此,如果公司需要针对罐装容量做调查,则会希望罐装的均值保持在 300ml左右小范围波动,即此时的假设设定为:
-
零假设 Null hypothesis:H0 = 300
-
备选假设 Alternative hypothesis:Ha ≠ 300
从这个例子中可以看出,即便针对同一个研究对象,不同的出发点也会导致不同的假设形式,因此针对具体情景的假设设定就显得非常重要了。
零假设和备选假设的一般形式
更一般地,如果令 μ0 来代表事先主张的某个值,根据不同的假设设定,零假设和备选假设共有三种形式:
-
H0: μ ≥ μ0,HA: μ < μ0
-
H0: μ ≤ μ0,HA: μ > μ0
-
H0: μ = μ0,HA: μ ≠ μ0
值得注意的是,三种形式下相等的部分都发生在零假设下,且后续会知道前两种形式称为单尾检验 one-tailed test,最后一种为双尾检验 two-tailed test。
I 类错误与 II 类错误
理想情况下无论支持或否定零假设都是基于统计事实的正确决策,但实际情况是由于样本选取的不同,或者说由于抽样误差的存在,我们可能在零假设本身是正确的情况下选择了拒绝零假设,转而支持备选假设,当然也存在零假设原本应该被拒绝的情况下错误的选择了支持零假设,这两类错误分别称为 Type I 错误和 Type II 错误。I 类错误意味着错误的拒绝零假设 Type I error of rejecting H0,II 类错误意味着错误的接受零假设 Type II error of accepting H0。
Type I and Type II error显著水平 Level of significance
在假设检验中由于我们知道检验的结果可能是错误的,为了确定一个可接受的在零假设正确的前提下根据抽样统计值错误的拒绝零假设的概率,也即可接受的犯 I 类错误的概率,将这个概率定义为显著水平,并用 α 表示,一般选择 α = 0.05 或 α = 0.01。在零假设正确的情况下,如果拒绝零假设的代价非常高,则应该选择小的 α 值,反之则可以选择较大的 α 值。对于仅控制 I 类错误的假设检验称为显著性检验 significance tests,而由于此时我们在接受 H0 时无法排除犯 II 类错误的可能,因此聪明的统计学家们在显著性检验中结论中只采用拒绝零假设和不拒绝零假设两种。
The level of significance is the probability of making a Type I error by rejecting H0 when the null hypothesis is true as an equality.
总体标准差 σ 已知的总体均值的假设检验
再一次地,如果被研究对象的总体服从正态分布,那么以下假设检验的讨论计算结果都适用,而当总体不服从正态分布时,如果样本量足够大的情况下也同样适用。
单尾检验 One-tailed test
单尾检验又分为以下两种形式:左尾检验 Lower tail test 和右尾检验 Upper tail test,后续我们会看到,之所以称左尾检验是在这个检验中,我们想要了解的是样本统计值是否落在某个设定的临界值/显著水平的左侧。同理,针对右尾检验,我们需要了解的是样本统计值是否落在某个设定的临界值/显著水平的右侧。
-
左尾检验 H0: μ ≥ μ0,HA: μ < μ0
-
右尾检验 H0: μ ≤ μ0,HA: μ > μ0
举一个更加具体的例子,假设一家公司的产品标牌上注明的产品容量是 3 公斤,消费者权益保护机构也认同不可能每一罐产品的容量都丝毫不差的等于 3 公斤,但从保护消费者权益的角度只要确认总体的均值 μ ≥ 3 公斤即可,这里的 3 就是 μ0。此时为了了解产品实际的填充情况,可以建立对“产品罐装质量大于等于 3 公斤”这个假设的一个检验如下:
-
H0: μ ≥ 3
-
HA: μ < 3
在选定了假设检验的零假设和备选假设后,可以通过对产品进行抽样,假设抽样的产品数量为 36 罐,如果依据抽样的数据计算得到的 x̄ 的值小于 3 公斤,由于样本差异的存在,我们不能简单的直接拒绝零假设。调查者需要确认的是:到底 x̄ 小于 3 公斤的程度达到多少时,我们愿意承担犯第一类错误的风险而确定的宣称罐装重量的差异应该引起重视,或者进一步的采取惩罚行动。在这个决策当中,影响这个差异大小评价的一个重要因素就是显著水平的高低——也即调查者愿意承担的犯第一类错误的风险。
本例中调查人员愿意承担 1% 的犯第一类错误的风险来根据小于 3 公斤的样本统计值宣布对于这家公司进行处罚,也即 α = 0.01。
检验统计量 Test statistic 及其选择
继续上面的例子,在抽样完成后,如果假定由于对这家公司长期的监督中发现其总体的均方差 σ = 0.18,且灌装质量总体上服从正态分布,那么抽样得到的 x̄ 的抽样分布将服从均值为总体均值 μ,均方误差为 σx̄ = σ / n1/2 的正态分布,在本例中 μ = μ0 =3,σx̄ = 0.03。此时,我们可以通过计算标准值 z = (x̄ - μ) / σx̄ 来了解在服从前面这个抽样分布的前提下,抽样得到某个 x̄ 取值的概率。在后续可以知道,由于统计在检验中使用 z 这个统计值可以判定检验的结果,在这里 z 被称为检验统计量。
Test statistic for population mean with known σ在获取了这个检验统计量以后,我们可以通过以下两种方法得到检验的结论:
p-value 法
前面已经讲到,对于总体均值的左尾检验来说,在零假设中期望总体的均值应该是超过某个假设值的,但由于抽样误差的存在,我们可能会得到一个小于假设值的 x̄,此时必须要回答的一个问题就是,当这个 x̄ 与假设值左偏多少时,我们愿意承担一定的风险来拒绝零假设。
在已经获得 z 这个检验统计量后,可以根据标准正态分布表查取取得这个 z 值的概率,并将这个概率值称为 p-value。如果对应的 p-value 很小,则意味着在服从前述假设前提的概率分布的样本中取得这个 x̄ 的概率很小,这意味着零假设 H0 这个前提很可能是有问题的。此时如果我们已经设定好了显著水平 α,即在零假设正确的前提下拒绝零假设的概率,并且发现 p-value 小于这个显著水平,那么我们可以更加确信的拒绝 H0。
回到这个具体的例子,假设我们得到的 x̄ = 2.92,则其 z = (2.92 - 3) / 0.03 = -2.67,对应标准正态分布中取得这个 z 值或比其更小的 z 值的概率为 0.0038,这意味这我们从一个均值为 3,均方误差为 0.03 的正态分布中取得 x̄ = 2.92 或更小值的概率为 P(x ≤ 2.92) = 0.0038。
p-value approach for lower tail test前面由于已经知道管理者愿意承担的第一类错误的风险值为 α = 0.01,此时由于 p-value = 0.0038 远小于这个值,据此可以更加确定地拒绝零假设。
更一般地,在左尾检验中,如果在假设检验中得到的 p-value 小于等于显著水平 α,我们就可以拒绝零假设。由于 p-value 来自于对总体的一个观测,对于任意小于等于 α 的 p-value,我们都会拒绝零假设,因此 p-value 也被称为观测到得显著水平 observed level of significance。
临界值法 Critical value approach
临界值法要求我们为检验统计量设定一个临界值,对于左尾检验来说,如果检验统计量小于临界值,那么就可以拒绝零假设。如果理解了显著水平这个定义,由于其就是对应标准正态分布中 z 取得某个值左侧部分的概率值,这个值也就是这里的临界值,也即 α = P(z ≤ critical value) 。
critical value在临界值法进行左尾检验中,如果事先已经设定了显著水平,则可以根据标准正态分布表查取取得这个临界值及其左侧部分的概率为 α 时对应的 zα 值,然后用这个值和检验统计得到的 zx̄ 进行对比,如果 zx̄ ≤ zα 那么则可以拒绝零假设。
从上述计算过程可知,p-value 法和临界值法是基于同一个原理,也即在抽样中,符合一定条件的抽样分布服从正态分布,在此基础上 α 就是样本统计值取在某个临界点及其左侧区域内的概率值,此时:
-
从样本统计得到的 zx̄ 值可以通过计算概率来和 α 做对比
-
通过显著水平 α 计算临界值 zα 来和 zx̄ 做对比
上面的讨论是针对左尾检验来说的,根据 p-value 的定义,在实际应用中有:
-
左尾检验:考察的是总体的均值是否大于等于某个假设,p-value 的值等于取得某个 zx̄ 值为界限的正态分布曲线左侧部分的面积或者说概率,也即 p-value = P(z ≤ zx̄),相应的拒绝零假设的条件是 p-value ≤ α 或 zx̄ ≤ zα
-
右尾检验:考察的是总体的均值是否小于等于某个假设,p-value 的值等于取得某个 zx̄ 值为界限的正态分布曲线右侧部分的面积或者说概率,也即 p-value = 1 - P(z ≤ zx̄),相应的拒绝零假设的条件是 p-value ≤ α 或 zx̄ ≥ zα
双尾检验 Two-tailed test
很多时候我们需要被研究对象的某个特征固定在某个假设的取值附近,既不能太大,也不能太小。此时如果采用抽样的形式对于总体的特征参数进行研究时,有的样本的均值的取值会大于这个假设的取值,有的样本的均值的取值会小于这个假设的取值,也即抽样得到的均值的取值围绕设定值左右波动,那么如何有依据的评价这个波动的大小进而拒绝这个假设还是不拒绝这个假设就需要采用双尾检验。其零假设和备选假设的一般形式为:
- H0: μ = μ0,HA: μ ≠ μ0
再一次地,这个评价的依据就是选择好的显著性水平 α,只不过与单尾检验最重要的区别在于,α 对应的概率值被平均分配为正态分布的左右两侧 zα/2 面积下的概率,其目的是考察抽样统计值围绕事先设定的假设值的左右偏离程度。相应的 p-value 也是取得检验统计值及其相反数的正态分布两侧的概率,并且当 P(z ≥ zx̄) + P(z ≤ -zx̄) ≤ α 时拒绝零假设,或者当采用临界值法时样本统计值 z ≥ zα/2 或 z ≤ -zα/2 可以认为在服从前述假设分布的情况下取得这个 z 值是小概率事件,也可以拒绝零假设。
p-value approach for two-tailed test至此,对于总体均方差已知的情况下对于总体均值的假设检验的讨论就结束了,总结前面的内容如下:
Hypothesis test about a population mean with sigma known假设检验和区间估计的关系
从假设检验和区间估计的计算过程中我们可以感觉到二者之间存在着某些联系:实际上在区间估计的定义中之所以置信水平的定义为 1 - α 就是因为假设我们在双尾检验中设定了显著水平为 α = 0.05,则意味着围绕假设值定义了一个 95% 置信水平的置信区间,如果我们通过抽样获得的样本统计值落在这个置信区间内,则我们可以不拒绝零假设,否则就可以拒绝零假设。也即如果我们以样本统计值构建一个 1 - α 置信水平的置信区间 x̄ ± zα/2σx̄,如果 μ0 的取值在这个区间内,则不拒绝零假设,否则拒绝零假设。通过置信区间的构造来实行双尾检验的方法如下:
Confidence interval approach for two-tailed test参考阅读
比我这个笔记讲的更加清楚透彻的关于假设检验和 p-value 请查阅微信公众号“马同学高等数学”,这可能是国内最好的关于数学的公众号,并且绝对原创。我承认这是一个广告,但是是出于个人喜好的无利益支持。
免责声明
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。
网友评论