美文网首页
Bagging为什么能降低过拟合

Bagging为什么能降低过拟合

作者: 小蛋子 | 来源:发表于2019-03-31 12:13 被阅读0次

偏差与方差
偏差 (bias) 定义为:

即模型的期望预测与真实值之间的差异。

方差 (variance) 定义为:


方差通常衡量模型对不同数据集的敏感程度,也可以认为是衡量模型的不稳定性。若方差大,则表示数据的微小变动就能导致学习出的模型产生较大差异,即对应的模型结构风险更高。

有了偏差和方差的定义,我们就能推导出模型的期望泛化误差:


如果我们能在保持bias基本不变时,降低variance,则模型的期望泛化误差降低,从而降低模型过拟合风险。

集成模型
假设我们现在有一个集成模型,其过程为从整体样本中进行采样,得到n份独立且与整体同分布的样本集,然后选择同样的模型进行训练,最后取平均。由于单个模型对应数据同分布,模型相同,则对应的bias和variance相同,而

所以最终模型的bias与单模型的bias相同;另一方面,由于各个子模型独立,则

此时可以显著降低模型的variance,根据模型泛化误差期望公式,此时的集成模型的期望泛化误差将小于单模型的期望泛化误差,从而降低了模型的过拟合。

Bagging

针对上述集成模型,当各个子模型相同时,


此时不会降低variance。

对应公式:设有n个随机变量,两两变量之间的相关性为𝜌,则方差为


Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集有相似性,同时也使用同种模型,则各个子模型有相似的bias和variance,由上面结论可知,此时的bias与单模型近似相同,所以bagging不能显著降低bias。(因此在选择模型时,需要选择bias小的模型)子模型介于相同与独立两个极端情况之间,所以对应variance会处于var(x) 与 var(x)/n之间,即通过降低上述公式中的第二项降低整体方差。
而根据模型期望泛化误差公式,由于方差的降低,也能带来最终模型的期望泛化误差的降低,从而降低过拟合。

随机森林

随机森林是一种常用的Bagging模型,其通过对样本进行有放回的采样,构造n个样本集,同时对特征列进行采样后进行模型训练,即同时降低上述公式中的两项,来降低方差,从而降低过拟合。

相关文章

  • Bagging为什么能降低过拟合

    偏差与方差偏差 (bias) 定义为: 即模型的期望预测与真实值之间的差异。 方差 (variance) 定义为:...

  • 集成学习器

    将多种模型集合到一起, 降低误差和过拟合程度 Bagging / Bootstrap aggregating 将训...

  • 机器学习笔记3_Adaboost

    一般来说,Ensemble模型适合于过拟合的模型,包括bagging和boosting. 3.1 Bagging ...

  • 2.2.模型任何之——Bagging和Boostting的区别

    关键点 降低方差 & 降低偏差降低过拟合 & 降低欠拟合并行,彼此独立 & 串行,相互依赖 弱分类器的进化Bag...

  • 第3章 机器学习理论基础

    3.1 过拟合和欠拟合 过拟合 也称为 高偏差 (high bias),是指模型能很好地拟合训练样本,但对新数据的...

  • 学习笔记

    机器学习理论基础 来自《scikit-learn机器学习》 过拟合和欠拟合 过拟合是指模型能很好的拟合训练样本,但...

  • 某条面试

    职位:搜索算法工程师一面:感觉考核广度,bagging和boosting区别?过拟合怎么处理?L1和L2你怎么理解...

  • 什么是过拟合,如何避免?

    过拟合:训练集上表现很好,但是在测试集上表现很差,泛化性能差。 降低过拟合的方法:(1)试着寻找最简单的假设(2)...

  • 九.随机森林

    通过组合多个过拟合评估器来降低过拟合程度,实质上是一种集成学习方法,通常称为装袋算法。 虽然每个评估器都对数据过拟...

  • 机器学习-正则化

    正则化:简单性 过拟合 通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化也就是说,并非只是以最小化损失(经...

网友评论

      本文标题:Bagging为什么能降低过拟合

      本文链接:https://www.haomeiwen.com/subject/jspybqtx.html