美文网首页数据蛙强化课程第一期
2019-02-11至2019-02-17本周总结

2019-02-11至2019-02-17本周总结

作者: bf3780a4db09 | 来源:发表于2019-02-16 20:36 被阅读5次

    这周主要完成的学习任务是常见的概率分布、区间估计、假设检验、线性回归、梯度下降和逻辑回归的原理以及公式推导【这部分已经总结过】
    关于区间估计和假设检验,在概念理解上有新的收获,理一下思路吧。
    点估计
    点估计:直接用样本指标作为总体指标的估计值【比如用样本均值来估计总体均值】
    关于样本抽样的两个假设:
    1)如果总体服从(\mu ,{{\sigma }^{2}})的正态分布,那么无论样本容量n是多少,均有样本均值\bar{x}\tilde{\ }(\mu ,\frac{{{\sigma }^{2}}}{n})
    2)如果总体不服从正态分布,那么当样本容量足够大时(n\ge 30),样本均值\bar{x}近似地服从(\mu ,\frac{{{\sigma }^{2}}}{n})的正态分布【中心极限定理】
    区间估计
    但是通常情况下,总体指标并不等于样本指标,为了提高估计的精确性,利用区间估计来给出总体指标的估计范围【在点估计的基础上加减一个边际误差】
    例子:
    最近一周,某百货公司调查了100名客人,得到他们的消费金额均值\bar{x}\text{=}82,公司希望通过这100名客人来估计消费金额的总体均值\mu。【置信度为95%】

    由题可知\bar{x}\tilde{\ }(\mu ,\frac{{{\sigma }^{2}}}{n})\text{=}(\mu ,\frac{{{\sigma }^{2}}}{100})

    分两种情况:

    第一种由历史数据得出该公司的消费金额总体标准差\sigma \text{=}20已知

    总体均值有95%的概率在区间\left[ \bar{x}-{{Z}_{\alpha /2}}\frac{\sigma }{\sqrt{n}},\bar{x}+{{Z}_{\alpha /2}}\frac{\sigma }{\sqrt{n}} \right]内【统计量Z服从标准正态分布】

    注:{{Z}_{\alpha /2}}表示上侧【右侧】面积为\alpha /2时统计量Z的值

    第二种未知总体标准差的值

    总体均值有95%的概率在区间\left[ \bar{x}-{{t}_{\alpha /2}}\frac{s}{\sqrt{n}},\bar{x}+{{t}_{\alpha /2}}\frac{s}{\sqrt{n}} \right]内【统计量t服从自由度为n-1t分布】

    假设检验
    假设检验:用来确定是否应该拒绝关于总体参数值的方法
    围绕两类错误展开
    第一类错误:原假设{{H}_{0}}为真,却拒绝了{{H}_{0}}
    第二类假设:原假设{{H}_{0}}为假,却接受了{{H}_{0}}
    将只控制第一类错误的假设检验称为显著性检验【无法控制第二类错误】,同时当原假设为真且以等号形式出现时,此时犯第一类错误的概率称为显著性水平【\alpha】。
    注:显著性检验只能得出两个结果:拒绝{{H}_{0}}或者不能拒绝{{H}_{0}},没有接受{{H}_{0}}这种说法,一旦接受{{H}_{0}},就要承担范第二类错误的风险。
    总体均值检验
    1)总体标准差\sigma已知
    总体均值的单侧检验
    例子:{{H}_{0}}:\mu \ge 3,{{H}_{a}}:\mu <3,假设总体服从正态分布
    已知\sigma \text{=}0.18,n=36,\bar{x}=2.92
    检验统计量Z=\frac{\bar{x}-{{\mu }_{0}}}{\sigma /\sqrt{n}}\tilde{\ }N(0,1),用来确定\bar{x}是否偏离\mu足够远【足够小】,从而可以拒绝原假设。
    检验方法:
    p值法,看面积大小【p值越小(小于\alpha),越要拒绝原假设】
    此时的Z=\frac{\bar{x}-{{\mu }_{0}}}{\sigma /\sqrt{n}}\text{=}\frac{2.92-3}{0.18/6}=-2.67p\text{=}P(Z\le \text{-}2.67)=0.0038<\alpha =0.01,因此拒绝原假设。
    临界值法,看x值的位置
    计算临界值:P(Z\le linjiehi)\text{=}\alpha \text{=}0.01.,直接查表查不到,利用对称性得到{{Z}_{\alpha }}={{Z}_{0.01}}=2.33,所以临界值为-2.33,此时的Z\text{=-}2.67<-2.33,因此应该拒绝原假设。
    其实,假设检验和区间估计是一致的,假设检验计算此时统计量的值是否在接受域【区间估计】内,无论是p值法还是临界值法,都可以转化为该值是否在接受域内【p<\alpha当前值越向尾端靠近,越远离区间估计的边界点(临界点)】
    总体均值的双侧检验
    例子:{{H}_{0}}:\mu \text{=}295,{{H}_{a}}:\mu \ne 295,假设总体服从正态分布,已知\sigma \text{=12},n=50,\bar{x}=297.6,\alpha \text{=}0.05
    检验统计量:Z=\frac{\bar{x}-{{\mu }_{0}}}{\sigma /\sqrt{n}}\tilde{\ }N(0,1),用来确定\bar{x}是否偏离\mu足够远【足够小或者足够大】,从而可以拒绝原假设。
    检验方法:
    p值法
    此时的Z=\frac{\bar{x}-{{\mu }_{0}}}{\sigma /\sqrt{n}}\text{=}\frac{297.6-295}{12/\sqrt{50}}=1.53p-value\text{=}P(Z\le \text{-1}\text{.53 }or\text{ }Z\ge \text{1}\text{.53})=2P(Z\ge \text{1}\text{.53})\text{=}2\times 0.063=0.126>0.05.,因此不能拒绝原假设。
    临界值法
    计算临界值:P(Z\le \text{-}linjiezhi\text{ or }Z\ge linjiezhi)\text{=}\alpha \text{=}0.05,
    1-P(Z\le linjiezhi)=P(Z\ge linjiezhi)=0.025
    所以{{Z}_{\alpha /2}}=1.96=linjiezhi,此时的Z\text{=1}\text{.53}<1.96【在区间估计内】,因此不能拒绝原假设。
    2)总体标准差\sigma未知
    方法与总体标准差已知的情况类似,只是,统计量换成t=\frac{\bar{x}-{{\mu }_{0}}}{s/\sqrt{n}}\tilde{\ }t(n-1)
    总体均值的单侧检验
    例子:{{H}_{0}}:\mu \le 7,{{H}_{a}}:\mu >7,已知s\text{=1}\text{.052},n=60,\bar{x}=7.25,\alpha \text{=}0.05
    p值法
    此时的t=\frac{\bar{x}-{{\mu }_{0}}}{s/\sqrt{n}}\text{=}\frac{7.25\text{-}7}{1.052/\sqrt{60}}=1.84p-value=P({{t}_{59}}\ge 1.84)=1-P({{t}_{59}}\le 1.84)=0.035<0.05,拒绝原假设。用Python计算这里的P({{t}_{59}}\le 1.84)
    一种是用t检验的方法,直接输入60个样本

    image.png
    注:这里的p值是双侧检验的结果,根据对称性,单侧检验的p值为0.035
    另一种是根据算出来的1.84计算分布函数的值
    image.png
    临界值法
    临界值 image.png
    总体均值的双侧检验
    例子: {{H}_{0}}:\mu \text{=40},{{H}_{a}}:\mu \ne 40
    已知 s\text{=11}\text{.79},n=25,\bar{x}=37.4,\alpha \text{=}0.05
    此时的 t=\frac{\bar{x}-{{\mu }_{0}}}{s/\sqrt{n}}\text{=}\frac{\text{37}\text{.4-40}}{11.79/\sqrt{25}}=-1.103
    \begin{align} & p-value=P({{t}_{24}}\ge 1.103\text{ }or\text{ }{{t}_{24}}\le \text{-}1.103)=2\times P({{t}_{24}}\le \text{-}1.103) \\ & \text{ }=2\times 0.140\text{=}0.280>0.05 \\ \end{align}
    临界值 {{t}_{\alpha /2}}={{t}_{0.025}}=2.064>1.103
    所以不能拒绝原假设
    以上均是围绕控制第一类错误的目的展开的
    下面考虑如何计算第二类错误的发生概率问题
    例子:
    {{H}_{0}}:\mu \ge 120,{{H}_{a}}:\mu <120 已知 \sigma \text{=12},n=36,\alpha \text{=}0.05
    统计量 Z=\frac{\bar{x}-{{\mu }_{0}}}{\sigma /\sqrt{n}}\tilde{\ }N(0,1)
    临界值 {{Z}_{\alpha }}={{Z}_{0.05}}=1.645
    以下条件成立 Z\le \text{-}1.645 拒绝原假设,反之 Z\ge \text{-}1.645 \bar{x}\ge 116.71 ,接受原假设,此时需要考虑犯第二类错误的概率【原假设为假的基础上,接受原假设的概率
    假设总体均值的真实值为112【原假设为假】,此时接受原假设的概率等于 P(\bar{x}\ge 116.71)=P(\frac{\bar{x}-112}{12/\sqrt{36}}\ge \frac{116.71-112}{12/\sqrt{36}})=P(Z\ge 2.36)=0.0091
    再做一下这个例子的第二类错误发生的概率
    例子: {{H}_{0}}:\mu \text{=40},{{H}_{a}}:\mu \ne 40 已知 s\text{=11}\text{.79},n=25,\bar{x}=37.4,\alpha \text{=}0.05
    上面已经计算过,无法拒绝原假设,考虑接受原假设的问题【如果拒绝原假设,就不用考虑第二类错误的发生概率了】
    临界值 {{t}_{\alpha /2}}={{t}_{0.025}}=2.064 还要加上-2.064【对称性】
    以下式子成立 \text{-}2.064\le t\le 2.064 33.77\le \bar{x}\le 46.23 接受原假设
    假设总体均值的真实值为36【原假设为假】,此时接受原假设的概率等于 \begin{align} & P(33.77\le \bar{x}\le 46.23)=P(\frac{33.77\text{-36}}{11.79/\sqrt{25}}\le \frac{\bar{x}\text{-36}}{11.79/\sqrt{25}}\le \frac{\text{46}\text{.23-36}}{11.79/\sqrt{25}}) \\ & \text{ }=P(-0.946\le {{t}_{24}}\le 4.338)=0.177 \\ \end{align}

    相关文章

      网友评论

        本文标题:2019-02-11至2019-02-17本周总结

        本文链接:https://www.haomeiwen.com/subject/ndvieqtx.html