集成学习-提升（boosting）方法

作者: DeepNLPLearner | 来源:发表于2021-06-07 08:51 被阅读0次

集成学习-提升（boosting）方法
集成学习
CV-模型集成
【百面机器学习】集成学习
AdaBoost算法介绍
集成学习
集成学习
《统计学习方法》之随机森林Random Forest
机器学习（13）——adaboost
Bagging与Boosting的联系与区别

1 提升方法

1.1 概率近似正确（PAC）学习框架

在概率近似正确（PAC）学习框架中，一个概念，如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，但正确率仅比随机猜测好一点，则称这个概念是弱可学习的。
强可学习和弱可学习是等价的。
因此，若发现了弱学习器，可以将其提升为强学习器.

1.2 提升方法的问题

如何在每一轮训练中改变训练数据的权值或者概率分布？
如何将弱分类器组成一个强分类器？

2 AdaBoost 算法（最具代表性的提升算法）

2.1 主要思想

提高被前一轮弱分类器错误分类错误分类样本的权值，降低被正确分类的样本权值；
采取多数表决的方式组合弱分类器，加大分类误差小的弱分类器权值。

2.2 步骤

引用：https://zhuanlan.zhihu.com/p/59121403

3 提升树

3.1 定义

提升方法采用加法模型与前向分步算法，以决策树为基函数的提升方法称为提升树（boosting tree）。
当提升树算法为二分类算法时，就成了Adaboost算法的一种特例。
提升树都是回归树。

3.2 提升树算法

采用前向分布算法的提升树，第m步的模型为：

其中

T(x;\theta_m)

为当前待学习的回归树，其解为：

当损失函数为平方误差损失时，

当前模型学习的目标就是你拟合残差

r=y-f_{m-1}

3.2 梯度提升决策树（GBDT）

提升树利用加法模型与前向分步算法实现优化过程，当损失函数是平方损失时，每一步优化是简单的，但对一般损失函数而言，问题就复杂了，因此，Freidman提出了梯度提升算法（Gradient Boosting），这是最速下降的近似方法，其关键是利用损失函数的负梯度在当前模型的值作为上述残差的近似值，拟合一个回归树。

GBDT

3.3 XGboost (Extreme Gradient Boosting)

3.3.1 改进点

XGboost本质上是GBDT思想的一种实现方式，它主要在以下几个方面做了改变：

GBDT在训练时，只采用了损失函数的一阶导数信息，XGBoost对损失函数进行了二阶展开，理论上讲，收敛速度更快
加入了正则项，L1和L2分别用于限制叶子节点的数量和节点权重
GBDT采用CART二叉树，分裂准则为平方误差,XGboost支持多种分类器，树的分裂准则如下：
a当决策树结构已知时，令损失函数二阶泰勒近似函数的导数为0，可以求出每个叶子节点的预测值： $w^*=-{G_j} / {(H_j + \lambda)}$ ;
b将预测值代入到损失函数中，可以求得损失函数的最小值 $L_m$ ;
c计算分裂前后损失函数的差值为 $L_左 + L_右-L_根$ ，采用差值最大的分裂节点进行分裂；具体而言（>https://zhuanlan.zhihu.com/p/125594314）：

1）先计算未分裂时一阶导和二阶导在各个样本处的值，
2）然后遍历所有特征（这里特征属性为连续值），每个特征下按特征值大小对样本排序，
3）然后从左往右依次选择分割点，计算该分割点下的损失差值，
4）找到损失差值最大时对应的特征与分割点，以此为当前节点进行分裂。
这样做确实能准确的找到特征与分割点，但是太耗时了。如果有几百个特征，几百万个训练样本，按这种方式遍历黄花菜都凉了，所以需要一种较为快速的近似方法去替代精确解。
GBDT在每轮迭代时，使用全部的训练数据，XGBoost则加入了行采样(样本)和列采样(特征)；
GBDT没有对缺失值进行处理，XGBoost能够自动学习缺失值的处理策略；

3.3.2 近似算法

不遍历训练样本所有特征值去找最佳分割点，而是人为设计一些分割点，然后将训练样本划分到不同的分割区间中，步骤如下：

image.png

对于每一个特征，进行固定的分割点选取，其中对于第k个特征，分割点的首尾分别是该特征属性值的最小最大值。这样每个特征下每个分割点都能计算出损失差，选取最小损失差对应的特征、分割点即可。这里分割点的用法也用两种，一种是global，一种是local。global意味着只进行一次初始的分割选取，后面每个节点的都是在初始分割点上选取最优点；local则是每分裂一次，重新调整分割点的选取，分割区间会越来越小，因为分裂后的每个节点的样本数在减少。用local方法，则分割点不用设计太多，分割区间也不用太细；用global方法则需要较多的分割点，同样分割区间也要更细。在数据集上的验证结果表明，用远少于训练样本数的分割点，这种近似算法的效果与前面提到的遍历所有样本的效果差不多，如下图：

eps表示分割区间，区间越小，分割点越多

3.3.3 缺失值处理

每次分裂时，对缺失值样本分别放在左右两个叶节点，计算损失下降值，哪边增益大就放哪边。

3.3.4 工程优化

特征值排序并存储pre-sorted
上文提到对于每个特征，需要遍历所有的特征值去选择最佳分割点。如果在训练之前就排好序并存储在内存block中，每一个特征对应一个block。这样在构建第k棵树的过程中，可以同时对所有的叶结点进行分割点的遍历，也可以同时对所有特征进行分割点的遍历，这样特征的选择和叶结点的分裂可以同时进行，达到并行化计算的目的，可以进行分布式或多线程计算，缩短训练时间。
cache-aware预取
在分块并行中，block存储了排序的列，并建立和原来样本的一一映射，这样可以通过特征值来找到原始样本获得梯度，但是原始样本是存放是按照列值的原始顺序的，相邻内存的样本他们对应的列值可能不是连续的，而我们现在根据排序后的列值来找原样本，那么肯定会出现在内存上的跳跃式查找，就非连续内存访问，可能导致CPU cache命中率降低。所以在线程中开辟一块连续空间，对需要用到的梯度进行预取和存储。在数据集较大的时候，缓存机制效果比较好
out-of-core computation
当训练样本太大无法全部加载到内存中时，会把数据分成许多个block并存储在硬盘中，需要计算的时候，用另一个线程加载数据到内存中，这样读取与计算可以同步进行。但是我们知道从磁盘读取数据会比较耗时，因此作者又提出了两个优化方法去解决这个问题。
第一个方法叫做Block compression，将block按列压缩存储，读取的时候用另外的线程边读取边解压；第二个方法叫做Block sharding，是将数据划分到不同磁盘上，为每个磁盘分配一个预读取线程，并将数据提取到内存缓冲区中，然后训练线程交替地从每个缓冲区读取数据。这有助于在多个磁盘可用时增加磁盘读取的吞吐量。

4 LightGBM

LightGBM和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。

LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：

更快的训练效率
低内存使用
更高的准确率
支持并行化学习
可处理大规模数据
支持直接使用category特征

参考资料

XGBoost的优化方法: https://zhuanlan.zhihu.com/p/125594314
XGBoost入门系列第一讲: https://zhuanlan.zhihu.com/p/27816315
《统计学习方法》李航

集成学习-提升（boosting）方法
1 提升方法 1.1 概率近似正确（PAC）学习框架在概率近似正确（PAC）学习框架中，一个概念，如果存在一个多...
集成学习
集成学习集成思想主要分为两大流派，Boosting一族通过将弱学习器提升为强学习器的集成方法来提高预测精度（典型...
CV-模型集成
集成学习方法集成学习能够提高预测精度，常见的集成学习方法有stacking、bagging和boosting，同...
【百面机器学习】集成学习
1、集成学习的种类（1）集成学习分哪几种？它们有何异同？ 1）Boosting Boosting方法训练基分类器...
AdaBoost算法介绍
1. Boosting Boosting（提升方法）是将弱学习器算法提升为强学习算法的统计学习方法。在分类问题中，...
集成学习
集成学习的两大流派 1. Boosting 通过将弱学习器提升为强学习器的集成方法来提高预测精度，典型算法为Ada...
集成学习
集成学习与个体学习器集成学习是机器学习中常用的一种方法，常用的集成学习方法有boosting,bagging以及...
《统计学习方法》之随机森林Random Forest
1. Bagging和Boosting 在集成学习方法中，Bagging和Boosting是具有代表性的两大方法，...
机器学习（13）——adaboost
前言：下面介绍另外一种集成算法思想—boosting，提升学习（Boosting）是一种机器学习技术，可以用于回归...
Bagging与Boosting的联系与区别
Bagging(套袋法)与Boosting(提升法)是集成学习中重要的算法，是一种模型融合的重要方法，相对于只利用...

集成学习-提升（boosting）方法

1 提升方法

1.1 概率近似正确（PAC）学习框架

1.2 提升方法的问题

2 AdaBoost 算法（最具代表性的提升算法）

2.1 主要思想

2.2 步骤

3 提升树

3.1 定义

3.2 提升树算法

3.2 梯度提升决策树（GBDT）

3.3 XGboost (Extreme Gradient Boosting)

3.3.1 改进点

3.3.2 近似算法

3.3.3 缺失值处理

3.3.4 工程优化

4 LightGBM

参考资料

相关文章

集成学习-提升（boosting）方法

集成学习

CV-模型集成

【百面机器学习】集成学习

AdaBoost算法介绍

集成学习

集成学习

《统计学习方法》之随机森林Random Forest

机器学习（13）——adaboost

Bagging与Boosting的联系与区别

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读