这周主要完成的学习任务是常见的概率分布、区间估计、假设检验、线性回归、梯度下降和逻辑回归的原理以及公式推导【这部分已经总结过】
关于区间估计和假设检验,在概念理解上有新的收获,理一下思路吧。
点估计
点估计:直接用样本指标作为总体指标的估计值【比如用样本均值来估计总体均值】
关于样本抽样的两个假设:
1)如果总体服从的正态分布,那么无论样本容量
是多少,均有样本均值
2)如果总体不服从正态分布,那么当样本容量足够大时(),样本均值
近似地服从
的正态分布【中心极限定理】
区间估计
但是通常情况下,总体指标并不等于样本指标,为了提高估计的精确性,利用区间估计来给出总体指标的估计范围【在点估计的基础上加减一个边际误差】
例子:
最近一周,某百货公司调查了100名客人,得到他们的消费金额均值,公司希望通过这100名客人来估计消费金额的总体均值
。【置信度为95%】
由题可知
分两种情况:
第一种由历史数据得出该公司的消费金额总体标准差【已知】
总体均值有95%的概率在区间内【统计量
服从标准正态分布】
注:表示上侧【右侧】面积为
时统计量
的值
第二种未知总体标准差的值
总体均值有95%的概率在区间内【统计量
服从自由度为
的
分布】
假设检验
假设检验:用来确定是否应该拒绝关于总体参数值的方法
围绕两类错误展开
第一类错误:原假设为真,却拒绝了
第二类假设:原假设为假,却接受了
将只控制第一类错误的假设检验称为显著性检验【无法控制第二类错误】,同时当原假设为真且以等号形式出现时,此时犯第一类错误的概率称为显著性水平【】。
注:显著性检验只能得出两个结果:拒绝或者不能拒绝
,没有接受
这种说法,一旦接受
,就要承担范第二类错误的风险。
总体均值检验
1)总体标准差已知
总体均值的单侧检验
例子:,假设总体服从正态分布
已知
检验统计量:,用来确定
是否偏离
足够远【足够小】,从而可以拒绝原假设。
检验方法:
值法,看面积大小【
值越小(小于
),越要拒绝原假设】
此时的,
,因此拒绝原假设。
临界值法,看值的位置
计算临界值:.,直接查表查不到,利用对称性得到
,所以临界值为-2.33,此时的
,因此应该拒绝原假设。
其实,假设检验和区间估计是一致的,假设检验计算此时统计量的值是否在接受域【区间估计】内,无论是值法还是临界值法,都可以转化为该值是否在接受域内【
当前值越向尾端靠近,越远离区间估计的边界点(临界点)】
总体均值的双侧检验
例子:,假设总体服从正态分布,已知
检验统计量:,用来确定
是否偏离
足够远【足够小或者足够大】,从而可以拒绝原假设。
检验方法:
值法
此时的,
.,因此不能拒绝原假设。
临界值法
计算临界值:,
即,
所以,此时的
【在区间估计内】,因此不能拒绝原假设。
2)总体标准差未知
方法与总体标准差已知的情况类似,只是,统计量换成
总体均值的单侧检验
例子:,已知
值法
此时的,
,拒绝原假设。用Python计算这里的
一种是用t检验的方法,直接输入60个样本

注:这里的p值是双侧检验的结果,根据对称性,单侧检验的p值为0.035
另一种是根据算出来的1.84计算分布函数的值

临界值法
临界值

总体均值的双侧检验
例子:
已知
此时的
临界值
所以不能拒绝原假设
以上均是围绕控制第一类错误的目的展开的
下面考虑如何计算第二类错误的发生概率问题
例子:
统计量
临界值
以下条件成立
假设总体均值的真实值为112【原假设为假】,此时接受原假设的概率等于
再做一下这个例子的第二类错误发生的概率
例子:
上面已经计算过,无法拒绝原假设,考虑接受原假设的问题【如果拒绝原假设,就不用考虑第二类错误的发生概率了】
临界值
以下式子成立
假设总体均值的真实值为36【原假设为假】,此时接受原假设的概率等于
网友评论