理解bootstrapping

作者: ShuiLocked | 来源:发表于2020-06-17 07:25 被阅读0次

复习一下bootstrapping。

统计中我们常常需要做参数估计，具体问题可以描述为：
给定一系列数据 $x_1,x_2,...,x_n \sim i.i.d. F(x|\theta)$ ，假设它们是从分布 $F$ 中采样得到的，参数估计就是希望估计分布 $F$ 中的 $\theta$ 。

bootstrapping算法的目的就是为了估计 $\theta$ 从而得到 $F$ 的分布的预测。具体地，它的思想对已有的观测值 $x_1,x_2,...,x_n$ 进行多次重复的抽样，每次抽样都可以得到一个预测的经验分布函数，根据这些不同抽样得到的经验分布函数，可以得到一个更好的关于统计量分布的估计。

打个比方，如果现在有N个学生的身高数据，需要估计的统计量是学生的平均身高。bootstraping的方法可以替我们确定身高平均值的置信区间。步骤大致如下：

从N个数据中随机抽取N个数据（有放回）构成一个样本
计算每个样本的均值
重复步骤1，2知道计算足够多的次数（如100次）

根据这些步骤得到的100次结果，我们可以得出95%的置信区间，即覆盖了95%的样本均值的区间。换言之，超出这个范围的身高均值，出现的次数都小于5%，也可以说它的p值<0.05。

以上所说的可以理解为bootstrapping百分位法，它假设样本均值与总体均值的分布大致相似，但这个假设在现实中很难保证成立。一个更好的方法是bootstrapping经验法。具体的核心思想可以概括为：

计算总体均值 $\mu$ 的置信区间的本质是回答这样一个问题：样本均值 $\bar{x}$ 的分布是如何围绕总体均值 $\mu$ 变化的。换言之，我们想知道残差 $\delta=\mu-\bar{x}$ 的分布。 $\delta$ 就是当我们使用 $\bar{x}$ 来估计 $\mu$ 的误差。虽然我们不知道 $\delta$ 的分布，但是它可以由 $\bar{x}^{*}$ 如何围绕 $\bar{x}$ 变化（即 $\delta^{*}$ 的分布）来近似。这里 $\delta^{*}$ 是利用 Bootstrap 样本计算的均值与原始样本均值之间的差：
$\delta^{*} = \bar{x}^{*} - \bar{x}$ 。