美文网首页统计学数据蛙数据分析每周作业
Datawhale统计学一周集训——任务三

Datawhale统计学一周集训——任务三

作者: 晓迦 | 来源:发表于2019-01-06 18:08 被阅读4次

    任务内容

    • 学习内容(一)
      47-53集 假设检验(一)
    • 学习内容(二)
      54-61集 假设检验(二)

    学习笔记

    假设检验

    假设检验:在原假设H_0成立的条件下,计算当前情况发生的概率,也就是p值,如果p值比较小,一般以0.05为主,则认为原假设不成立,支持备选假设H_1

    单侧检验与双侧检验

    仅仅通过视频上的内容来看:单侧检验与双侧检验与原假设无关,仅仅是针对备选假设H_1提出来的,以原假设H_0=10为例,当备选假设H_1不等于10时,是双侧检验;当备选假设H_1>10或者H_1<10时,是单侧检验。单侧检验与双侧检验区别在于求p值时,p值对应于在概率密度图上的面积范围不同。

    z统计量与t统计量

    两者的区别在于样本容量,当样本容量>30时,正态分布,也就是Z统计量;当样本容量<30时,t分布,也就是t统计量。
    求p值的方法一样,正态分布与t分布的概率密度曲线不同,则两者求p值的方法有差异。
    正态分布通过计算z值,即与均值\mu相差多少个标准差,来查表计算p值;t分布通过t统计量,自由度查表来查p值。(在t分布中求p值可能不太合适,一般用允许犯第一型错误的概率与自由度查表,比较两个t统计量)

    深入分析一下很有意思:求p值的过程与求置信区间的方法类似,区别在于,置信区间是知道“p值”来求区间范围,而假设检验是知道“区间范围”来求p值。(如果引入拒绝域的概念,则假设检验与置信区间的求法一致。)

    第一型错误

    第一型错误指的是原假设正确,但拒绝原假设。

    大样本占比假设检验

    假设符合某种条件的占比为a%,我们通过观看抽样出来的样本占比大于a%,则需要验证占比>a%假设是否成立。
    H_0:占比<=a%,H_1:占比>a%
    在求总体方差的时候使用二项分布公式,再用\sigma_{\hat{X}}=\frac{\sigma}{\sqrt{n}}计算样本的标准差,然后Z变换,查表得出结论。

    随机变量之差

    两个独立分布的随机变量X、Y
    E(X) = \mu_X,Var(X) = \sigma_X^2
    E(Y) = \mu_Y,Var(Y) = \sigma_Y^2
    随机变量Z=X-Y
    E(Z) = \mu_X+\mu_Y
    Var(Z)= \sigma_X^2+ \sigma_Y^2

    样本均值之差

    两个相互独立的样本X,Y,其均值分布参数如下:
    E(\hat{X}) = \mu_\hat{X},Var(X) =\frac{ \sigma_\hat{X}^2}{n_1}
    E(\hat{Y}) = \mu_\hat{Y},Var(Y) =\frac{ \sigma_\hat{Y}^2}{n_2}
    样本均值之差Z:
    E(\hat{Z}) = \mu_\hat{X}+\mu_\hat{Y}
    Var(Z) =\frac{ \sigma_\hat{X}^2}{n_1}+\frac{ \sigma_\hat{Y}^2}{n_2}
    知道了样本均值之差的均值与标准差,求置信区间以及进行假设检验的方法就类似了。
    澄清一下均值之差的置信区间,假设置信度为95%,不是均值之差落在此置信区间的概率为95%,而是我们有能力相信均值之差落在此区间的概率为95%。因为样本均值分布的E(X),Var(X)等均为估计值。

    总体占比的比较

    假设在某次投票中,投给男生的总票数n1,支持率为p1;投在男生的总共票数n2,支持率为p2;我们要检验性别对于支持率是否有影响。
    E(\hat{p_1})=p_1, \sigma_{\hat{p_1}}=\sqrt {\frac{p_1*(1-p_1)}{n_1}}
    E(\hat{p_2})=p_2, \sigma_{\hat{p_2}}=\sqrt\frac{p_2*(1-p_2)}{n_2}
    E(\hat{p_1}-\hat{p_2})=p_1-p_2
    \sigma_{\hat{p_1}-\hat{p_2}}=\sqrt {\frac{p_1*(1-p_1)}{n_1}+\frac{p_2*(1-p_2)}{n_2}}
    知道了p1-p2的均值和标准差也就能求置信区间或者进行假设检验了。

    总结

    • 中心极限定理是假设检验的理论基础。
    • 理解样本均值的概念很重要。
    • 要学会求解新的正态分布的均值标准差

    相关文章

      网友评论

        本文标题:Datawhale统计学一周集训——任务三

        本文链接:https://www.haomeiwen.com/subject/xzzhrqtx.html