[读书笔记]置信区间

作者: 大聖Jonathan | 来源:发表于2018-10-23 17:40 被阅读1次

[读书笔记]置信区间
回归分析基本假设
95%置信区间 2020-06-10
R语言计算一组数据的置信区间的简单小例子
小马哥课堂-统计学-置信区间
R语言实现统计推断,T检验方差分析相关分析卡方检验
假设检验：非参数检验（卡方检验），参数检验（F检验，T检验，Z检
回归分析的前提假设
R语言——自定义函数求置信区间
统计学（42）-置信区间的理论与实际含义

目录

置信区间是什么鬼？

怎样构建置信区间？

阅读本文，需要对抽样、总体、抽样分布有一定的了解，可以参考：[读书笔记] 关于样本和总体，需要了解哪些？

置信区间是什么鬼？

我们知道，点估计量是对总体参数做出的最好估计。问题是，估计或多或少都是会有偏差的，原因是抽样带有随机性。如果说使用点估计量估计总体参数有偏差，那用一个区间来代替一个具体的估计量好像能让人好接受一些。举个例子，相比于“某个地区男性的平均身高是175cm”，“某个地区男性的平均身高介于173cm和176cm之间”是不是能够容纳更多的误差范围。

以均值为例，我们希望从均值抽样分布中，选取一个区间(a ,b)，使得总体均值介于a和b之间，将这个概率记作： $P(a<\mu<b)$ 。那么，(a, b)被称为置信区间，这个概率被称为置信水平（置信水平通常为95%）。通俗的理解就是：我们希望有95%的概率使得总体均值是在(a, b)之间，如下图所示。

置信区间

怎样构建置信区间？

构建置信区间，一般有下面四个步骤：

1. 选择总体统计量

也就是说，我们希望为那个统计量构建置信区间。常见的如均值和比例。比如身高平均值、药效持续时长、治愈率等。选择好统计量，则可以开始进行下一步。

2. 求出所选统计量的抽样分布

为了求出统计量的抽样分布，需要知道其期望、方差以及分布。以均值为例（我们构建总体均值的置信区间），我们知道对于均值抽样分布(推导过程，详见前文链接)：
$E(\bar{X}) = \mu \quad Var(\bar{X}) = \frac{\sigma^2}{n}$

知道了期望和方差，下面就需要知道抽样分布了。我们知道，根据中心极限定理，当样本很大的时候，均值抽样分布符合正太分布。那如果样本比较小的时候呢？答案是：当样本比较小的时候，均值抽样分布符合t分布。用数学方法表示就是：

样本很大的时候， $\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$ 。这里，尽管我们不知道总体的方差，但可以用总体方差的点估计量来估计。因此，改写为： $\bar{X} \sim N(\mu, \frac{s^2}{n})$
样本比较小的时候， $\bar{X} \sim t(v)$ 。这里，v是表示自由度，且 $v = n-1$ ，其中n为样本大小。（这里不对t分布做更多的讨论）

3. 决定置信水平

置信水平表明，我们有多大的信心使得总体统计量位于区间(a, b)内。常用的置信水平是95%，需要注意的是：置信水平越高，区间越宽，置信区间包含总体统计量的几率也就越大。但是如果置信区间过大，就会失去其意义。举例来说，“某个地区男性的平均身高介于100cm和200cm之间”，这个概率几乎可以说是100%，但是这样的论断，完全没有实际的意义。现在确定了置信区间，最后就剩下求解置信上下限了。

4. 求出置信上下限

这里分别来看下，当均值抽样分布符合正太分布和t分布的时候，如何求解。

均值抽样分布符合正太分布，且置信水平为95%时：
我们已知 $\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$ ，将其标准化后得到：
$Z = \frac{\bar{X} - \mu}{\frac{\sigma^2}{n}} = \frac{\sqrt{n}(\bar{X} - \mu)}{\sigma} \quad Z \sim N(0,1)$
查表可得: 当 $P(Z<Z_{a}) = 0.025$ 时， $Z_a = -1.96$ ；当 $P(Z<Z_b) = 0.975$ 时， $Z_b = 1.96$ 。因此，我们需要求解下面的不等式，其中 $\bar{X}$ 用均值点估计量替换， $\sigma$ 用方差点估计量替换：
$-1.96 < \frac{\sqrt{n}(\bar{X} - \mu)}{\sigma} <1.96 \quad \bar{X} - \frac{1.96\sigma}{\sqrt{n}} < \mu < \bar{X} + \frac{1.96\sigma}{\sqrt{n}}$
到此为止，就求出了置信水平为95%下的置信区间为： $(\bar{X} - \frac{1.96\sigma}{\sqrt{n}}, \bar{X} + \frac{1.96\sigma}{\sqrt{n}})$
均值抽样分布符合t分布，且置信水平为95%时：
我们已知 $\bar{X} \sim t(v)$ ，将其标准化后得到：
$T = \frac{\bar{X} - \mu}{\frac{s}{ \sqrt{n} }}$
求解时，我们将 $\bar{X}$ 和 $s$ 分别用均值和方法的点估计量代入即可。类似的，变换不等式则可以求出置信区间为： $(\bar{X} - t \frac{s}{\sqrt{n}}, \bar{X} + t \frac{s}{\sqrt{n}})$ ，其中t通过查表得出。

[读书笔记]置信区间
目录置信区间是什么鬼？怎样构建置信区间？阅读本文，需要对抽样、总体、抽样分布有一定的了解，可以参考：[读书笔记]...
回归分析基本假设
置信区间置信区间是随机变量置信水平：95%置信区间，从总体中对样本进行随机采样，计算参数的置信区间，那么100...
95%置信区间 2020-06-10
正确的理解： 95%置信区间，就是用同样的步骤，反复重新抽样计算100次，独立得到计算总体参数的置信区间100次，...
R语言计算一组数据的置信区间的简单小例子
什么是置信区间？我看了StatQuest 介绍置信区间的那一期视频，大体理解了，但是让我用语言表述出来，还有点...
小马哥课堂-统计学-置信区间
Confidence interval(置信区间) confidence interval (CI) is a t...
R语言实现统计推断,T检验方差分析相关分析卡方检验
计算不同样本类型的T置信区间配对样本T置信区间，使用自带的sleep数据: 使用函数的方法同方差独立组的T置信...
假设检验：非参数检验（卡方检验），参数检验（F检验，T检验，Z检
首先讲置信度与置信区间：放在一起理解就行：即在置信度alpha的概率下，我们的参数落在置信区间beta内。例如：在...
回归分析的前提假设
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence i...
R语言——自定义函数求置信区间
【代码】：选修课作业，自己写函数求单正态样本均值、方差置信区间，两个正态样本均值差、方差比的置信区间。求解时正态...
统计学（42）-置信区间的理论与实际含义
1、理论上的置信区间从理论上讲，95%置信区间的意思是：如果从一个总体中重复多次抽取不同的样本（如抽取1000 ...