美文网首页
AdaBoost & GradientBoost(&GBDT)

AdaBoost & GradientBoost(&GBDT)

作者: madeirak | 来源:发表于2019-05-10 13:57 被阅读0次

"Boosting"的基本思想是通过某种方式使得每一轮基学习器在训练过程中更加关注上一轮学习错误的样本

AdaBoost(Adaptive Boost)

AdaBoost的算法过程也就是上述Boosting的过程,AdaBoost采用的是增加上一轮学习错误样本的权重的策略,他是最具代表性的Boosting算法.

关于AdaBoost有两个关键问题:

  1. 每轮训练过后如何调整样本权重 ω
  2. 如何确定最后各学习器的权重 α
  • 这两个问题可由加法模型和指数损失函数推导出来

G_m(x)为基学习器,a_m为系数,\left\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right\}为训练数据集

AdaBoost最后得到的强学习器是由一系列的弱学习器的线性组合,此即加法模型 AdaBoosting使用的的指数损失函数

第m步,我们的目标是最小化一个指定的损失函数,如上图。这是个复杂的全局优化问题,通常我们使用其简化版,即假设在第m次迭代中,前m-1次的系数a和基学习器G(x)都是固定的。

这样在第m步我们只需就当前的a_m和Gm(x)最小化损失函数 目标是在指数函数最小的情况下求得a_m和Gm(x)

由于ω不依赖于\alphaG(x),可以看做其是第m步训练之前赋予每个样本的权重,每一轮的权重\omega_i^{(m)}依赖于f_{m-1}(x),每一轮迭代会改变。于是式 (1.3) 变为:


“Ⅱ”表示当括号内条件成立时取值为1,否则为0

y_i=G(x_i)即本样本预测正确,反之预测错误

1. 确定下一轮样本权值\omega_i (??这块没看懂怎么推的,晕希望评论里大佬教教我)
可以看到对于a_m>0,若y_i = G_m(x_i),则\omega_i^{(m+1)}= \omega_i^{(m)}e^{-a_m},表明前一轮被正确分类样本的权值会减小;若y_i \neq G_m(x_i)\omega_i^{(m+1)}= \omega_i^{(m)}e^{a_m}表明前一轮误分类样本的权值会增大。
2. 确定各基学习器的系数\alpha_m

GB(Gradient Boost)

  • 参考:集成学习之Boosting —— Gradient Boosting原理

  • 之前说的AdaBoost中每一轮基学习器训练过后都会更新样本权重,再训练下一个学习器,最后将所有的基学习器加权组合。AdaBoost使用的是指数损失,这个损失函数的缺点是对于异常点非常敏感,因而通常在噪音比较多的数据集上表现不佳。

  • Gradient Boosting在这方面进行了改进,使得可以使用任何损失函数 (只要损失函数是连续可导的)这样一些比较robust(健壮)的损失函数就能得以应用,使模型抗噪音能力更强。

  • 不同于AdaBoost采用的是增加上一轮学习错误样本的权重的策略,在Gradient Boosting中则将负梯度作为上一轮基学习器犯错的衡量指标,在下一轮学习中通过拟合负梯度来纠正上一轮犯的错误
    为什么通过拟合负梯度就能纠正上一轮的错误了?Gradient Boosting的发明者给出的答案是:函数空间的梯度下降。
    梯度下降法参数更新公式

Gradient Boosting 采用和AdaBoost同样的加法模型,在第m次迭代中,前m-1个基学习器都是固定的,即


因而在第m步我们的目标是最小化损失函数,进而求得相应的基学习器。若将f(x)当成参数,则同样可以使用梯度下降法 对比式 (1.2)和 (1.3),可以发现若将 即用基学习器h_m(x)拟合前一轮模型损失函数的负梯度,就是通过梯度下降法最小化L(f)。由于f(x)实际为函数,所以该方法被认为是函数空间的梯度下降。

  • 负梯度也被称为“响应 (response)”或“伪残差 (pseudo residual)”,从名字可以看出是一个与残差接近的概念。直觉上来看,残差r=y-f(x) 越大,表明前一轮学习器f_{m-1}(x)的结果与真实值y相差较大,那么下一轮学习器通过拟合残差或负梯度,就能纠正之前的学习器犯错较大的地方。

GBDT

  • GB + 回归树(多用CART) = GBDT

在Gradient Boosting框架中,最常用的基学习器是决策树 (一般是CART),二者结合就成了著名的梯度提升树 (Gradient Boosting Decision Tree, GBDT)算法。注意GBDT不论是用于回归还是分类,其基学习器 (即单颗决策树) 都是回归树即使是分类问题也是将最后的预测值映射为概率,因为回归树的预测值累加才是有意义的,而GBDT是把所有树的结论累加起来做最终结论的

  • GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。
  • 举一个简单的例子,同样使用年龄进行分枝,假设我们A的真实年龄是18岁,但第一棵树的预测年龄是12岁,即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习,如果第二棵树真的能把A分到6岁的叶子节点,那累加两棵树的结论就是A的真实年龄;如果第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里A的年龄就变成1岁……以此类推学习下去,这就是梯度提升Gradient Boosting在GBDT中的直观意义。

相关文章

  • 机器学习算法:GBDT

    1. Adaboost 的全局过程 2.AdaBoost 和GradientBoost 的公式 3.GBDT 算法...

  • AdaBoost & GradientBoost(&GBDT)

    "Boosting"的基本思想是通过某种方式使得每一轮基学习器在训练过程中更加关注上一轮学习错误的样本 关于Ada...

  • adaboost和xgboost的区别和联系

    机器学习算法中GBDT与Adaboost的区别与联系是什么? Adaboost Adaboost是模型为加法模型,...

  • 集成学习之Boosting-gbdt

    一、什么是GBDT 二、GBDT与传统Adaboost的不同之处 三、GBDT的负梯度拟合 四、GBDT算法流程 ...

  • 传统机器学习笔记 - GBDT(二)

    学习GBDT的原理和细节(二) 在GBDT的原理之后,拓展GBDT相关的细节,包括和Adaboost的异同,以及G...

  • GBDT集成算法(梯度提升树)

    一、算法思想 GBDT是集成学习Boosting算法中的一种,它与Adaboost相比,Adaboost算法利用...

  • boost家族

    boost家族 常见算法: Adaboost GBDT XGboost Adaboost每一轮的基分类器都可以独挡...

  • Boost-GBDT

    GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost...

  • 03-GBDT

    1. GBDT概述 GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回...

  • ID3、C4.5、CART、随机森林、bagging、boost

    ID3 C4.5 CART 随机森林 bagging boosting Adaboost GBDT xgboost

网友评论

      本文标题:AdaBoost & GradientBoost(&GBDT)

      本文链接:https://www.haomeiwen.com/subject/juuooqtx.html