原文链接:https://blog.csdn.net/pxhdky/article/details/84797718
- 由于每个个体学习器都只使用了初始训练集中约63.2%的样本,剩下的样本可用作验证集来对泛化性能进行包外估计(out-of-bag estimate),为此需要记录每个基学习器所使用的训练样本
- 对每个个体学习器
而言,有36.8%的样本没有用来训练,称为该学习器的包外估计样本。令
表示个体学习器实际所使用的训练样本集,表示
对样本
的包外预测。仅考虑那些未使用的
训练的基学习器在
上的预测:
1. 对数据集中的每个样本
,计算它作为包外样本的个体学习器对该样本的分类情况;
2. 以简单多数表决方法得到样本的包外预测结果:
3. 最后用所有包外预测不等于真实标记的误分个数占样本总数的比例作为包外估计,则Bagging的泛化误差的包外估计为:
网友评论