美文网首页
机器学习面试之GBDT

机器学习面试之GBDT

作者: 梦无音 | 来源:发表于2018-08-28 16:46 被阅读140次

    (参考:https://www.cnblogs.com/ScorpioLu/p/8296994.html)

    (参考:https://www.cnblogs.com/ModifyRong/p/7744987.html)

    (参考:https://blog.csdn.net/google19890102/article/details/51746402)

    一、集成学习方法

    (1)Bagging

    对训练样本重采样来得到不同的训练样本集,在这些训练样本集上分别训练学习器,最终合并。Bagging方法中,最重要的算法是随机森林算法。

    Bagging

    (2)Boosting

    学习器之间存在先后顺序,每个样本有权重,初始化时,每个样本的权重是相等的,训练过程中调整正确和错误样本的权重。同时,每个学习器的权重也是不一样的。Boosting中,最重要的方法包括AdaBoost和GBDT。

    Boosting

    二、Gradient Boosting

    (1)在函数空间优化

    损失函数:

    首先设置初始值:

    以函数F为整体,对于每一个样本Xi,对存在对应的函数值F(Xi)。与梯度下降法更新过程一致,经过M代,得到的最优函数为:

    (2)Gradient Boosting

    由上图可知,Boosting的学习结果是b个学习器的和:

    具体过程如下:

    三、Gradient Boosting Decision Tree (1st博客)

    在梯度提升决策树中,基学习器是分类回归树CART,使用的是CART中的回归树。

    (1)分类回归树CART

    对于m个训练样本的回归问题,训练样本为:

    初始时,CART树中只包含根节点:

    然后计算该节点的方差的m倍:

    此时,从n维特征中选择第j维特征作为划分标准,分为左子树和右子树,其中样本个数分别为m1和m2:

    为了寻找最好的划分,计算左右子树的方差和:

    并且选择方差和最小的划分为最终的划分,依次这样划分下去:

    注:关于划分,计算过程可以进一步优化:

    划分前 划分后

    第一项相同,最好的划分对应于两节点的值的和的最大值:

    (2)GBDT——二分类

    在梯度提升决策树GBDT中,通过定义不同的损失函数,可以完成不同的学习任务,二分类是机器学习中一类比较重要的分类算法,在二分类中,其损失函数为:

    套用上面的GB框架,得到下述二分类的GBDT算法:

    在构建每一棵CART回归树的过程中,每一个样本的预测值应该与y-(y bar)尽可能一致,y-(y bar)计算过程如下:

    在y-(y bar,通常可以称为残差,更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中,计算该叶子结点的预测值:

    由Newton-Raphson迭代公式可得:

    代码参考:https://github.com/guestwalk/kaggle-2014-criteo

    Python版本:https://github.com/liudragonfly/GBDT

    三、Gradient Boosting Decision Tree (2nd博客)

    (1)GBDT选择特征

    GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree,也可以是其他的弱分类器,前提是低方差和高偏差,框架服从Boosting框架即可。

    CART的特征选择过程就是李航第五章中对CART Tree的描述:

    (2)GBDT构建特征

    GBDT能构建特征并不准确,其本身是不能产生特征的,但是可以利用GBDT产生特征的组合。

    由于LR不能解决非线性问题,为了避免人为构建特征,使用GBDT构造特征

    (3)GBDT用于分类

    GBDT无论用于分类还是回归一直都是使用CART回归树,核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。

    GBDT多分类算法流程

    第一步,针对样本X每个可能的类都训练一个CART。例如,目标有三类,即K = 3,而样本 x 属于第二类,可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树,第一棵树输入为(x, 0),第二棵树输入为(x, 1),第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归,使用softmax来产生概率,例如属于类别1的概率为:

    并且可以针对各类别求出残差:

    然后开始第二轮训练,对每一类的输入分别为(x, y11)、(x, y22)和(x, y33),继续训练三棵树。一直迭代M轮,有如下三个式子:

    当训练完毕后,新来一个样本x1,我们需要预测该样本的类别,便可以由以上三个式子产生三个值,然后利用softmax函数求概率。

    相关文章

      网友评论

          本文标题:机器学习面试之GBDT

          本文链接:https://www.haomeiwen.com/subject/xdefwftx.html