基础统计学(8)置信区间

作者: Best_Scenery | 来源:发表于2020-03-27 22:29 被阅读0次

基础统计学(8)置信区间
用R语言计算统计学习题（下）
回归分析的前提假设
讲讲Bootstrap是在干啥？
统计学学习方法推荐
2019.3.16 错过的计算题-应用统计学
统计学基础
Stage 1 数学基础：统计学思考方法
统计学的置信区间
R语言作业-统计30题

Inference and confidence interval for mean

平均数的推断和置信区间

6.01 Statistical inference

统计推理

统计推理分两个方面: Estimation(估计) 和 Hypothesis testing(假设检测)

估算分点估计和区间估计

6.02 CI for mean with know population sd

当知道总体标准差，如何计算平均数的置信区间

CI: confidence interval (置信区间)

置信区间: 当给定一个概率标准(如95%)，样本平均数可能出现的范围区间.

由于样本平均数的分布是近似正态分布的，因此

ci_1.png

95%置信区间的范围是 $U_{\overline x}$ +- 1.96 $\sigma_{\overline x}$ (z-table中查询获得)
+-1.96 $\sigma_{\overline x}$ 叫做margin of error (误差幅度)

由于以上的特性，我们计算抽样平均值在95%置信区间可能出现的范围为: $\overline X$ +- 1.96 $\sigma_{\overline x}$

前提条件: 一个样本的平均值 $\overline x$ , 样本中的数量是n, 总体标准差为 $\sigma$ , 求：平均值的95%置信区间?
$\overline x +- 1.96 \frac{\sigma}{\sqrt n}$
下图是一个示例的计算过程

ci_2.png

6.03 CI for mean with unknown population sd

总体标准差未知的情况下计算置信区间

我们使用T-distribution(T分布)代替正态分布来估算总体的标准差

上一节中计算置信区间的公式是:
$\overline x +- 1.96 \sigma_{\overline x}$
等价于
$\overline x +- Z_{95\%} \frac{\sigma}{\sqrt n}$
这次我们不知道 $\sigma$ 的值
$\overline x +- Z_{95\%}(se)$

$se = \frac {s}{\sqrt n}$

se叫做Standard Error(标准误差): 它表示抽样分布的估算标准差.

在这个计算中引入了额外的误差，因此我们引入另外一个分布类型叫做T分布
$\overline x +- t_{95\%}(se)$
T分布和正态分布非常类似，钟形、对称、平均值为0

他们之间的关系如下图:

ci_4.png

T分布的形状依赖于df(自由度), df =n-1, n越大，T分布形状越接近正态分布（图中蓝色的df较小，绿色的为较大）,当df无穷大时，T分布等同于正态分布

同正态分布类似，T分布也有一张t-table, 通过df, 概率2个参数来查询T分数

查询T分布的时候注意，当df不在表中，则取比df小的最大值查询

最后终结,要计算置信区间的2个假设前提

数据要足够随机
总体接近正态分布

使用T分布要非常注意那些特殊数据，了解了特殊数据之后再开始使用它

6.04 CI for proportion

比例的置信区间

5.06比例抽样分布中我们了解到, 它的标准差为:
$\sigma_p = \sqrt{\frac{\pi(1-\pi)}{n}}$
其中 $\pi$ 为总体的正比例(我们需要估算的结果的比例)， n为样本数

由此可得出比例置信区间公式为:
$CI_p = p+-Z_{95\%}\sqrt{\frac{\pi(1-\pi)}{n}}$
但是我们往往不知道 $\pi$ 是多少

和上一节一样我们引入SE(standard error) = $\sqrt{\frac{{p}(1-p)}{n}}$

但是我们这里不引入T分布，同样适用正态分布，适用z分数来计算
$CI_p = p+-Z_{95\%}\sqrt{\frac{p(1-p)}{n}}$
但是这里有个前提条件:当正负样本数>=15记为 $n_\pi>=15$ 且 $n_{1-\pi}>=15$

6.05 Confidence levels

置信度

置信度就是指当我们计算置信区间的时候，若抽样次数无限，有多少比例的样本的平均值（或二项式比例）落在置信区间范围内。

一般情况下我们通常会使用95%的置信度，当然也可以99%,90%的置信度

这3个置信度对应的z分数为

置信度	z分数
90%	1.645
95%	1.96
99%	2.58

当我们要计算置信区间的时候，按照如下图的步骤来进行

ci_5.png

选择一个置信度
判断是对象是计算比例还是平均值

比例的话使用z分布

平均值的话使用t分布
计算区间的2个端点
根据上面的结果推断最终的结果

6.06 Choosing the sample size

选取合适的样本大小

样本大小(计算平均值)的因素:

误差的大小

误差越小，样本大小越大
置信度

置信度越大，样本大小越大
数据的离散度

标准差越大，样本大小越大

由此引出公式:
$n = \frac {\sigma^2 z^2} {m^2}$

$\sigma$ 为标准差，z为z分数(95%置信度为1.96,99%为2.58),m为误差范围的最大值

同样计算比例的样本大小计算公式如下:

$n = \frac {p(1-p)z^2} {m^2}$

p为正比例的值,z为z分数(95%置信度为1.96,99%为2.58),m为误差范围的最大值

基础统计学(8)置信区间
Inference and confidence interval for mean 平均数的推断和置信区间 6....
用R语言计算统计学习题（下）
上集：用R语言计算统计学习题（上）第8章置信区间估计 8.25，电话公司调查安装费用，随机选取了500个家庭用...
回归分析的前提假设
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence i...
讲讲Bootstrap是在干啥？
学过统计学的同学应该对置信区间都有了解，置信区间又叫估计区间，是从概率来讲某个随机变量可能取的值的范围。那很多...
统计学学习方法推荐
学习目标：统计学基础知识统计(假设)检验相关用R语言进行统计学相关分析计算统计学基础知识：统计学入门路线...
2019.3.16 错过的计算题-应用统计学
1统计学对于正态分布，这个关系很重要！ (x-u)/ 参数估计类的题目：无偏估计量：置信区间假设类的题目：...
统计学基础
最近休息在家无聊，整理下之前看的统计学的一些基础知识，方便以后查阅吧。统计学基础基础名词基础概念和公式基础概念对...
Stage 1 数学基础：统计学思考方法
如果你已经掌握了P值,置信区间,回归模型,那么你已经得到了统计学的主干.而基于这个主干之上的枝叶,同样非常重要,如...
统计学的置信区间
有时候无法给出足够正确的结果。我们使用的是样本，没有使用整个总体，只是得到最佳的点估计量，存在着小心的误差。不使用...
R语言作业-统计30题
题目链接：http://www.bio-info-trainee.com/4385.html 统计学基础统计学...