一. 假设检验概述
1.1 假设
现有如下假设:
客户的地域信息会影响逾期率
如何证明上述论断是否正确?
统计学推断中罕见事件规则
在一个已知的假设下,如果一个待定事件发生的概率格外小,那么我们认为,这个假设可能不对。
实际推断原理:
概率很小的事件在一次试验中实际上几乎不会发生。
1.2 Gender Selection
下面是一个例子:
image.png
靠数据说话:
image.png
1.3 假设检验
假设就是对从总体参数(均值、比例等)的具体数值所作的陈述,比如,我认为配方一比配方二的效果要好。而假设检验就是先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程,比如上面的假设信息我该接受还是拒绝。
1.4 显著性水平
显著性水平是一个概率值,原假设为真时,拒绝原假设的概率,表示为α,常取值为0.05、0.01、0.10。一个公司招聘,本来准备招聘100个人,公司希望只有5%的人是混水摸鱼招聘进来,所以可能会有5个人混进来,所谓显著性水平α,就是你允许有多少比例混水摸鱼的能通过测试。
1.5 零假设和备折假设
零假设:
用H0表示,一般是统计者想要拒绝的假设。零假设的设置一般为:等于=、大于等于>=、小于等于<=。
备折假设:
用H1表示,备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。
1.6 检验统计量
即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。
1.7 P值
是一个概率值,如果原假设为真,p值是抽样分布中大于或小于样本统计量的概率。左检验时,p值为曲线上方小于等于检验统计量部分的面积。右检验时,p值为曲线上方大于等于检验统计量部分的面积。
1.8 假设检验的两种错误
类型 I 错误(弃真),如原假设为真,但否定它,则会犯类型 I 错误。犯类型 I 错误的概率为 α(即您为假设检验设置的显著性水平)。α 为 0.05 表明,当您否定原假设时,您愿意接受 5% 的犯错概率。为了降低此风险,必须使用较低的 α 值。但是,使用的α值越小,在差值确实存在时检测到实际差值的可能性也越小。类型 II 错误(采伪),如原假设为假,但无法否定它,则会犯类型 II 错误。犯类型 II 错误的概率为 β,β 依赖检验功效。可以通过确保检验具有足够大的功效来降低犯类型 II 错误所带来的风险。方法是确保样本数量足够大,以便在差值确实存在时检测到实际差值。
image.png1.9 单双测检验
当假设关键词有不得少于/低于的时候用左侧检验,比如灯泡的使用寿命不得少于/低于700小时时;当假设关键词有不得多于/高于的时候用右侧检验,比如次品率不得多于/高于5%时。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H0:μ1=μ2。
image.png二. 假设检验方法
假设检验方法:z检验,t检验,卡方检验
image.png2.1 Z检验
2.1.1 Z检验 概述
Z检验原理:当总体标准差已知,样本量较大时用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。如果检验一个样本平均数与一个已知的总体平均数的差异是否显著,其Z值计算公式为:
如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,其Z值计算公式为:
image.png
2.1.2 Z检验 实例
研究正常人与高血压患者胆固醇含量,比较两组血清胆固醇含量有无显著差异。
正常人组数据:n1=506(样本量) μ1=180.6(样本均值) s1=34.2(标准差)
高血压组数据:n2=142 μ2=223.6 s2=45.8
-
提出假设,规定适当检验统计量,确定检验水平:
H0:μ1=μ2
H1:μ1≠μ2
α=0.05,样本量较大,且检验来自两组样本平均数的差异性,故选择z检验统计量 -
计算统计量z值
将已知数据带入z检验公式,
计算假设检验统计量 z=10.4
α=0.05,双侧故 α/2=0.025,1-α=0.975 查表,确认临界值为1.96 -
确定p值,做出推断结论
10.4(z值)>1.96(临界值),故p<0.05,按α=0.05水准拒绝H0,接受H1,可以认为正常人和高血压患者的血清胆固醇含量有差异。
2.2 t检验
2.2.1 t检验 概述
t检验:分为单样本的t检验、配对样本均数t检验(本篇不详细说)、两独立样本均数t检验。t检验应用于两组计量资料小样本比较,样本对总体有较好代表性,对比组间有较好组间均衡性,即随机抽样和随机分组。且样本来自正态分布总体。单个样本t检验适用于样本均数与已知总体均数μ0的比较,目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。应用于总体标准α未知的小样本资料,且服从正态分布。
单样本t检验实例:
某地新生儿出生体重为3.3kg,从该地难产儿中随机抽取35名婴儿,平均体重为3.42kg,标准差为0.4kg,问该地难产儿出生体重与新生儿体重是否不同?
-
提出假设,规定适当检验统计量,确定检验水平:
H0:μ=μ0
H1:μ≠μ0
α=0.05 ,样本均数与已知总体均数μ0的比较,所以选择单样本t检验 -
计算统计量z值
n=35 μ0=3.3 μ=3.42 s=0.4
image.png
自由度=n-1=34,α=0.05,双侧故 α/2=0.025,1-α=0.975,自由度34,查表得出临界值为2.032
- 确定p值,做出推断结论
因为1.77(z值)<2.032(临界值),故p>0.05,按α=0.05水平,差别无统计学意义,不拒绝h0,不能认为该地难产儿与新生儿体重有差异。
网友评论