美文网首页
基础统计学(8)置信区间

基础统计学(8)置信区间

作者: Best_Scenery | 来源:发表于2020-03-27 22:29 被阅读0次

    Inference and confidence interval for mean

    平均数的推断和置信区间

    6.01 Statistical inference

    统计推理

    统计推理分两个方面: Estimation(估计) 和 Hypothesis testing(假设检测)

    估算分点估计和区间估计

    6.02 CI for mean with know population sd

    当知道总体标准差,如何计算平均数的置信区间

    CI: confidence interval (置信区间)

    置信区间: 当给定一个概率标准(如95%),样本平均数可能出现的范围区间.

    由于样本平均数的分布是近似正态分布的,因此

    ci_1.png
    • 95%置信区间的范围是 U_{\overline x} +- 1.96\sigma_{\overline x} (z-table中查询获得)
    • +-1.96\sigma_{\overline x} 叫做margin of error (误差幅度)

    由于以上的特性,我们计算抽样平均值在95%置信区间可能出现的范围为: \overline X +- 1.96\sigma_{\overline x}

    前提条件: 一个样本的平均值 \overline x , 样本中的数量是n, 总体标准差为\sigma, 求:平均值的95%置信区间?
    \overline x +- 1.96 \frac{\sigma}{\sqrt n}
    下图是一个示例的计算过程

    ci_2.png
    6.03 CI for mean with unknown population sd

    总体标准差未知的情况下计算置信区间

    我们使用T-distribution(T分布)代替正态分布来估算总体的标准差

    上一节中计算置信区间的公式是:
    \overline x +- 1.96 \sigma_{\overline x}
    等价于
    \overline x +- Z_{95\%} \frac{\sigma}{\sqrt n}
    这次我们不知道\sigma的值
    \overline x +- Z_{95\%}(se)

    se = \frac {s}{\sqrt n}

    se叫做Standard Error(标准误差): 它表示抽样分布的估算标准差.

    在这个计算中引入了额外的误差,因此我们引入另外一个分布类型叫做T分布
    \overline x +- t_{95\%}(se)
    T分布和正态分布非常类似,钟形、对称、平均值为0

    他们之间的关系如下图:

    ci_4.png

    T分布的形状依赖于df(自由度), df =n-1, n越大,T分布形状越接近正态分布(图中蓝色的df较小,绿色的为较大),当df无穷大时,T分布等同于正态分布

    同正态分布类似,T分布也有一张t-table, 通过df, 概率2个参数来查询T分数

    查询T分布的时候注意,当df不在表中,则取比df小的最大值查询

    最后终结,要计算置信区间的2个假设前提

    1. 数据要足够随机
    2. 总体接近正态分布

    使用T分布要非常注意那些特殊数据,了解了特殊数据之后再开始使用它

    6.04 CI for proportion

    比例的置信区间

    5.06比例抽样分布中我们了解到, 它的标准差为:
    \sigma_p = \sqrt{\frac{\pi(1-\pi)}{n}}
    其中\pi为总体的正比例(我们 需要估算的结果的比例), n为样本数

    由此可得出比例置信区间公式为:
    CI_p = p+-Z_{95\%}\sqrt{\frac{\pi(1-\pi)}{n}}
    但是我们往往不知道\pi是多少

    和上一节一样我们引入SE(standard error) = \sqrt{\frac{{p}(1-p)}{n}}

    但是我们这里不引入T分布,同样适用正态分布,适用z分数来计算
    CI_p = p+-Z_{95\%}\sqrt{\frac{p(1-p)}{n}}
    但是这里有个前提条件:当正负样本数>=15记为n_\pi>=15n_{1-\pi}>=15

    6.05 Confidence levels

    置信度

    置信度就是指当我们计算置信区间的时候,若抽样次数无限,有多少比例的样本的平均值(或二项式比例)落在置信区间范围内。

    一般情况下我们通常会使用95%的置信度,当然也可以99%,90%的置信度

    这3个置信度对应的z分数为

    置信度 z分数
    90% 1.645
    95% 1.96
    99% 2.58

    当我们要计算置信区间的时候,按照如下图的步骤来进行

    ci_5.png
    1. 选择一个置信度

    2. 判断是对象是计算比例还是平均值

      比例的话使用z分布

      平均值的话使用t分布

    3. 计算区间的2个端点

    4. 根据上面的结果推断最终的结果

    6.06 Choosing the sample size

    选取合适的样本大小

    样本大小(计算平均值)的因素:

    1. 误差的大小

      误差越小,样本大小越大

    2. 置信度

      置信度越大,样本大小越大

    3. 数据的离散度

      标准差越大,样本大小越大

    由此引出公式:
    n = \frac {\sigma^2 z^2} {m^2}

    \sigma为标准差,z为z分数(95%置信度为1.96,99%为2.58),m为误差范围的最大值

    同样计算比例的样本大小计算公式如下:

    n = \frac {p(1-p)z^2} {m^2}

    p为正比例的值,z为z分数(95%置信度为1.96,99%为2.58),m为误差范围的最大值

    相关文章

      网友评论

          本文标题:基础统计学(8)置信区间

          本文链接:https://www.haomeiwen.com/subject/lkcduhtx.html