bagging
bagging又名Bootstrap aggregating(自助聚合法,很扯的翻译)
Bootstrap 又名自助法,是统计学上的概念,核心思想是样本重采样(有放回),重采样来干啥,具体是每次重采样获取子数据集--一个估计;多次重采样得到多个估计,这就可以计算估计的方差等统计量。在这里我们无需在乎。
aggregating 聚合。即多模型聚合成一个模型。
大致流程
1,对样本集D有放回地随机重采样成m个子样本集D1,D2,...Dm
2,对于每个子样本集Di,训练一个弱学习器Mi
3,综合m个学习器,对于分类则投票,对于回归,则均值
随机森林 RF
bagging的一种算法。
1,弱学习器指定CART树
2,除了样本随机之外,特征也随机选取。
优点:
随机采样+随机特征+多模型平均 可以充分减小模型方差
可以并行运行
对于高纬度特征也可以快速计算
bagging 与 方差
直观讲,投票(分类)与平均(回归)本身就是一种相对稳定可以对抗高方差的方式。
具体来讲,bagging的做法,是随机重采样获取n个子样本集 在对每个子样本集训练模型(使用同一个算法训练) 则就会有相似的均值与方差
最终的到的模型
模型的期望
即bagging对bias的影响较小
模型的方差
对于方差有
X,Y相互独立时
1,当所有都相互独立时
2,当所有完全不独立,即所有模型相等时
而在bagging中,M介于上述两种情况之间即
所以bagging的最终模型方差会减小。
网友评论