【机器学习】样本处理：Bootstrapping

作者: 宅家学算法 | 来源:发表于2021-09-18 13:49 被阅读0次

【机器学习】样本处理：Bootstrapping
如何解决样本不均衡的问题
R语言--不均衡问题处理
3.1.1.13 半监督学习
【火炉炼AI】机器学习015-如何处理样本数偏差较大的数据集
如何解决机器学习中样本不均衡问题？
Python深度学习-4.机器学习基础
自助法
Essential Netty in Action学习(三)
第一章：机器学习基础

所谓的Bootstrapping法就是利用有限的样本资料经由多次重复抽样重新建立起足以代表母体样本分布的新样本。Bootstrapping算法又叫自扩展技术,是一种循序渐进的学习方法，以很小数量的数据为基础，通过多次训练把数据进行有效的扩充，最终达到需要的数据信息规模。
对于一个采样，我们只能计算出某个统计量(例如均值)的一个取值，无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以模拟出均值统计量的近似分布。有了分布很多事情就可以做了（比如说有你推出的结果来进而推测实际总体的情况）。
Bootstrapping方法的实现很简单，假设你抽取的样本大小为n：在原样本中有放回的抽样，抽取n次。每抽一次形成一个新的样本，重复操作，形成很多新样本，通过这些样本就可以计算出样本的一个分布。