（二）：GBDT算法梳理

作者: 两个橘子 | 来源:发表于2019-04-08 11:41 被阅读0次

（二）：GBDT算法梳理
GBDT算法梳理
集成学习之Boosting-gbdt
GBDT源码分析之一：总览
GBDT源码分析之二：决策树
GBDT--原来是这么回事(附代码)
GBDT常见面试问题
【西瓜书】第8章集成学习
GBDT算法
GBDT 算法

GBDT（Gradient Boosting Decision Tree）是一种采用加法模型（即基函数的线性组合）与前向分步算法并以决策树作为基函数的提升方法。通俗来说就是，该算法由多棵决策树组成，所有树的结论加起来形成最终答案。
GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失函数L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

1.前向分布算法

要理解GBDT算法，得先来了解一下什么是前向分步算法。下面一起来瞧瞧。

我们将

image.png

作为加法模型，其中b(x;γm)为基函数，γm为基函数的参数，βm为基函数的系数，βm表示着对应的基函数在加法模型f(x)中的重要性。

在给定训练数据和损失函数L(y,f(x))的条件下，学习加法模型成为经验风险极小化 (即损失函数极小化问题) :

image.png
（很多参数都不明白作用）

前向分步算法求解这一优化问题的思路：因为学习的是加法模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步去逼近上述的目标函数式，就可简化优化的复杂度，每一步只需优化如下损失函数：

image.png

前向分步算法流程：

image.png

因此，前向分布算法将同时求解从m=1到M的所有参数βm, rm的优化问题简化为逐次求解各个βm, rm的优化问题。

2.负梯度拟合

提升树利用加法模型与前向分步算法实现学习的优化过程，当损失函数是平方损失和指数损失函数时，每一步优化很简单，但对一般损失函数而言，每一步的优化并不容易。Freidman提出了梯度提升算法（gradient boosting），其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树（用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树）。第t轮的第i个样本的损失函数的负梯度表示为：

image 利用

image 我们可以拟合一颗 CART 回归树，得到了第 t 颗回归树，其对应的叶节点区域

image

. 其中 J 为叶子节点的个数。

针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值Ctj

如下：

image

这样我们就得到了本轮的决策树拟合函数如下：

image

从而本轮最终得到的强学习器的表达式如下：

image

通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用 GBDT 来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

3.损失函数

在GBDT算法中，损失函数的选择十分重要。针对不同的问题，损失函数有不同的选择。

1.对于分类算法，其损失函数一般由对数损失函数和指数损失函数两种。

(1)指数损失函数表达式：

image.png

(2)对数损失函数可分为二分类和多分类两种。

2.对于回归算法，常用损失函数有如下4种。

(1)平方损失函数：

image.png

(2)绝对损失函数：

image.png

对应负梯度误差为：

image.png

(3)Huber损失，它是均方差和绝对损失的折中产物，对于远离中心的异常点，采用绝对损失误差，而对于靠近中心的点则采用平方损失。这个界限一般用分位数点度量。损失函数如下：

image

对应的负梯度误差为：

image

（4）分位数损失。它对应的是分位数回归的损失函数，表达式为：

image.png

其中 θ为分位数，需要我们在回归之前指定。对应的负梯度误差为：

image

对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

4.回归

image.png

5.分类问题（二分类与多分类）

这里我们再看看GBDT分类算法，GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。
为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。本文仅讨论用对数似然损失函数的GBDT分类。而对于对数似然损失函数，我们又有二元分类和多元分类的区别。

5.1二元 GBDT分类

image

5.2 多元GBDT分类

image

6.正则化

和 Adaboost 一样，我们也需要对 GBDT 进行正则化，防止过拟合。GBDT 的正则化主要有三种方式。

第一种是和 Adaboost 类似的正则化项，即步长 (learning rate)。定义为 V, 对于前面的弱学习器的迭代

image

如果我们加上了正则化项，则有

image
v 的取值范围为0<=v<=1。对于同样的训练集学习效果，较小的 v 意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。
第二种正则化的方式是通过子采样比例（subsample）。取值为 (0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为 1，则全部样本都使用，等于没有使用子采样。如果取值小于 1，则只有一部分样本会去做 GBDT 的决策树拟合。选择小于 1 的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在0.5, 0.8 之间。使用了子采样的 GBDT 有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做 boosting 的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。
第三种是对于弱学习器即 CART 回归树进行正则化剪枝。

7.优缺点

7.1 优点

预测精度高
适合低维数据
能处理非线性数据
可以灵活处理各种类型的数据，包括连续值和离散值。
在相对少的调参时间情况下，预测的准备率也可以比较高。这个是相对SVM来说的。
使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

7.2 缺点

由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。
如果数据维度较高时会加大算法的计算复杂度

8.sklearn参数

在scikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Adaboost，我们把重要参数分为两类，第一类是Boosting框架的重要参数，第二类是弱学习器即CART回归树的重要参数。
下面我们就从这两个方面来介绍这些参数的使用。