机器学习面试之GBDT

机器学习面试之GBDT

作者: 梦无音 | 来源:发表于2018-08-28 16:46 被阅读140次

机器学习面试之GBDT
集成学习
机器学习之-GBDT
面试题：逻辑回归与朴素贝叶斯有什么区别
机器学习算法GBDT的面试要点
机器学习之GBDT(简单理解)
机器学习算法：GBDT
机器学习常见算法汇总
二分类问题的资料
传统机器学习笔记 - GBDT（一）

（参考：https://www.cnblogs.com/ScorpioLu/p/8296994.html）

（参考：https://www.cnblogs.com/ModifyRong/p/7744987.html）

（参考：https://blog.csdn.net/google19890102/article/details/51746402）

一、集成学习方法

（1）Bagging

对训练样本重采样来得到不同的训练样本集，在这些训练样本集上分别训练学习器，最终合并。Bagging方法中，最重要的算法是随机森林算法。

Bagging

（2）Boosting

学习器之间存在先后顺序，每个样本有权重，初始化时，每个样本的权重是相等的，训练过程中调整正确和错误样本的权重。同时，每个学习器的权重也是不一样的。Boosting中，最重要的方法包括AdaBoost和GBDT。

Boosting

二、Gradient Boosting

（1）在函数空间优化

损失函数：

首先设置初始值：

以函数F为整体，对于每一个样本Xi，对存在对应的函数值F(Xi)。与梯度下降法更新过程一致，经过M代，得到的最优函数为：

（2）Gradient Boosting

由上图可知，Boosting的学习结果是b个学习器的和：

具体过程如下：

三、Gradient Boosting Decision Tree （1st博客）

在梯度提升决策树中，基学习器是分类回归树CART，使用的是CART中的回归树。

（1）分类回归树CART

对于m个训练样本的回归问题，训练样本为：

初始时，CART树中只包含根节点：

然后计算该节点的方差的m倍：

此时，从n维特征中选择第j维特征作为划分标准，分为左子树和右子树，其中样本个数分别为m1和m2：

为了寻找最好的划分，计算左右子树的方差和：

并且选择方差和最小的划分为最终的划分，依次这样划分下去：

注：关于划分，计算过程可以进一步优化：

划分前

划分后

第一项相同，最好的划分对应于两节点的值的和的最大值：

（2）GBDT——二分类

在梯度提升决策树GBDT中，通过定义不同的损失函数，可以完成不同的学习任务，二分类是机器学习中一类比较重要的分类算法，在二分类中，其损失函数为：

套用上面的GB框架，得到下述二分类的GBDT算法：

在构建每一棵CART回归树的过程中，每一个样本的预测值应该与y-(y bar)尽可能一致，y-(y bar)计算过程如下：

在y-(y bar，通常可以称为残差，更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中，计算该叶子结点的预测值：

由Newton-Raphson迭代公式可得：

代码参考：https://github.com/guestwalk/kaggle-2014-criteo

Python版本：https://github.com/liudragonfly/GBDT

三、Gradient Boosting Decision Tree （2nd博客）

（1）GBDT选择特征

GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree，也可以是其他的弱分类器，前提是低方差和高偏差，框架服从Boosting框架即可。

CART的特征选择过程就是李航第五章中对CART Tree的描述：

（2）GBDT构建特征

GBDT能构建特征并不准确，其本身是不能产生特征的，但是可以利用GBDT产生特征的组合。

由于LR不能解决非线性问题，为了避免人为构建特征，使用GBDT构造特征

（3）GBDT用于分类

GBDT无论用于分类还是回归一直都是使用CART回归树，核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。

GBDT多分类算法流程

第一步，针对样本X每个可能的类都训练一个CART。例如，目标有三类，即K = 3，而样本 x 属于第二类，可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树，第一棵树输入为(x, 0)，第二棵树输入为(x, 1)，第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归，使用softmax来产生概率，例如属于类别1的概率为：

并且可以针对各类别求出残差：

然后开始第二轮训练，对每一类的输入分别为(x, y11)、(x, y22)和(x, y33)，继续训练三棵树。一直迭代M轮，有如下三个式子：

当训练完毕后，新来一个样本x1，我们需要预测该样本的类别，便可以由以上三个式子产生三个值，然后利用softmax函数求概率。

相关文章

机器学习面试之GBDT
（参考：https://www.cnblogs.com/ScorpioLu/p/8296994.html）（参考...
集成学习
参考：一文搞定GBDT、Xgboost和LightGBM的面试机器学习算法之LightGBMLightGBM两种使...
机器学习之-GBDT
面试题：逻辑回归与朴素贝叶斯有什么区别
关注微信公众号"机器学习算法面试"获取更多问题背景面试问的啥两个算法的对比比较多，比如你做了GBDT和XGB，...
机器学习算法GBDT的面试要点
http://www.cnblogs.com/ModifyRong/p/7744987.html 1.简介 gbd...
机器学习之GBDT(简单理解)
之前简单介绍过决策树，这篇文章简单介绍一下GBDT(Gradient Boosting Decision Tree...
机器学习算法：GBDT
1. Adaboost 的全局过程 2.AdaBoost 和GradientBoost 的公式 3.GBDT 算法...
机器学习常见算法汇总
1.机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
二分类问题的资料
机器学习算法比较梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT 梯...
传统机器学习笔记 - GBDT（一）
学习GBDT的原理和细节（一）在面试中，经常会出现GBDT以及相关算法的细节问题，所以这里做一下详细的学习记录 ...

网友评论

本文标题：机器学习面试之GBDT

本文链接：https://www.haomeiwen.com/subject/xdefwftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|机器学习面试之GBDT|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！