美文网首页统计机器学习统计学
统计学(45)-利用Bootstrap法估计置信区间

统计学(45)-利用Bootstrap法估计置信区间

作者: Zhigang_Han | 来源:发表于2020-02-07 20:02 被阅读0次
1、为什么要用Bootstrap呢?

我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?
中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积0.05所对应的分值了。
是不是就没有方法了呢?
事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。
Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

2、Bootstrap 估计的思想

统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体
假定我们从某所学校中随机抽样调查了20名学生的身高,打算通过这20人的身高估计该学校所有学生(如200 人)的身高。

image.png
如果采用常规的思路,则计算出20人身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为(163.2,169.2), 也就是说,有95%的信心认为(163.2,169.2) 区间包含了该学校所有学生的总体身高。
3、Bootstrap估计的思路

Bootstrap估计的思路就是从这20人中重复抽样。具体来说,以这20人作为抽样框,做1000次抽样(当然也可以是100次、2000次、甚至10000次等,视具体情况而定),有放回抽样!


image.png

(1)根据Bootstrap 抽样,可以对每次抽样都计算出一个均数。
(2)然后以这10个均数作为原始数据,求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计。
(3)对于95%置信区间,则分别计算出第2.5%和第97.5%的分位数,如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间,与常规方法计算的95%置信区间比较接近。

4、百分位数法

(1)百分位数法简单易懂,无须复杂计算,只要有了Bootstrap 样本及每个样本的统计量,找到相应的百分位数即可。
(2)它必须满足一个潜在的假定,即Bootstrap 抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。
(3)t法对于95%置信区间,确定0.025和0.975的百分位数,则95%置信区间为:


image.png
5、一个总结

传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量, Bootstrap 法就十分有用了。

6、参数推断

事实上,即使对于参数推断, Bootstrap 法也可以显示出与其同样的功效。
(1)计算两个中位数之差的置信区间
采用Bootstrap法的思路是:从样本数据中重复抽取1000次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5 百分位数和第97.5百分位数,这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。
(2)计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是:从样本数据中重复抽取1000次样本,每个样本都包含y和x, 每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 。最终可计算出1000个回归系数b。然后根据这1000 个回归系数,计算出它们的第2.5百分位数和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0, 则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(0,我不懂,是无效假设吗?)
回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂)

相关文章

  • 统计学(45)-利用Bootstrap法估计置信区间

    1、为什么要用Bootstrap呢? 我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分...

  • 27统计基础- 置信区间

    置信区间 ​ 自助法(Bootstrap Method,Bootstrapping或自助抽样法)。在统...

  • 回归分析的前提假设

    置信区间 是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence i...

  • 讲讲Bootstrap是在干啥?

    学过统计学的同学应该对置信区间都有了解,置信区间又叫估计区间,是从概率来讲某个随机变量可能取的值的范围。 那很多...

  • 2019.3.16 错过的计算题-应用统计学

    1统计学 对于正态分布,这个关系很重要! (x-u)/ 参数估计类的题目: 无偏估计量: 置信区间 假设类的题目:...

  • Bootstraping

    Bootstrap简介 Bootstrap方法是非常有用的一种统计学上的估计方法,是斯坦福统计系的教授Bradle...

  • 均数差

    均数差置信区间问题:1. 对于10,000次迭代,自展法(bootstrap)会对你的样本数据进行抽样,计算喝咖啡...

  • 用R语言计算统计学习题(下)

    上集:用R语言计算统计学习题(上) 第8章 置信区间估计 8.25,电话公司调查安装费用,随机选取了500个家庭用...

  • 统计学(41)-置信区间估计诡计?

    我不太有把握地说,这里的“置信"(奈曼提出的置信区间)是不是一个“置信诡计"……,就是说我们从中抽取样本的总体,其...

  • 商务与经济统计技术(九):估计与置信区间

    1.点估计与置信区间 1.1名词解释 点估计:从样本计算得到的用以估计总体参数的统计量。置信区间:由样本数据构造的...

网友评论

    本文标题:统计学(45)-利用Bootstrap法估计置信区间

    本文链接:https://www.haomeiwen.com/subject/oucvxhtx.html