1、集成学习的种类
(1)集成学习分哪几种?它们有何异同?
1)Boosting
Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
2)Bagging
Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。为了让基分类器之间相互独立,将训练集分为若干子集(当训练样本数量较少时,肯子集之间可能有交叠)。Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出判断不会完全一致。在最终做决策时,每个个体单独做出判断,再通过投票的方式做出最后的集体决策。
2、集成学习的步骤和例子
集成学习一般可分为以下3个步骤:
1)找到误差互相独立的基分类器
2)训练基分类器
3)合并基分类器的结果
3、基分类器
最常用的基分类器是决策树,主要有以下3个方面的原因。
(1)决策树可以较为方便地将样本的权重整合到训练过程中,而不需要使用过采样的方法来调整样本权重。
(2)决策树的表达能力和泛化能力,可以通过调节树的层数来做折中。
(3)数据样本的扰动对于决策树的影响较大,因此不同子样本集合生成的决策树基分类器随机性较大,这样的“不稳定学习器”更适合作为基分类器。此外,再决策树节点分裂的适合,随机地选择一个特征子集,从中找出最优分裂属性,很好地引入随机性。
4、偏差和方差
偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。
方差指的是所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。
Bagging能够提高弱分类器性能的原因是降低了方差,Boosting能够提升弱分类器性能的原因是降低了偏差。
5、梯度提升决策树的基本原理
![](https://img.haomeiwen.com/i18794076/3aa20796d1230c1c.png)
![](https://img.haomeiwen.com/i18794076/305ff5bce358e2b9.png)
![](https://img.haomeiwen.com/i18794076/a1ced3c58a62691d.png)
![](https://img.haomeiwen.com/i18794076/bd13a49b6d4b619b.png)
6、XGBoost与GBDT的联系和区别
![](https://img.haomeiwen.com/i18794076/cc740e62c2a5f803.png)
![](https://img.haomeiwen.com/i18794076/65e41471276f9a08.png)
![](https://img.haomeiwen.com/i18794076/2987c9e9128d5b63.png)
网友评论