美文网首页【机器学习-深度学习】
【百面机器学习】集成学习

【百面机器学习】集成学习

作者: 阿牛02 | 来源:发表于2019-08-14 16:57 被阅读0次

1、集成学习的种类

(1)集成学习分哪几种?它们有何异同?

1)Boosting

Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。

2)Bagging

Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。为了让基分类器之间相互独立,将训练集分为若干子集(当训练样本数量较少时,肯子集之间可能有交叠)。Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出判断不会完全一致。在最终做决策时,每个个体单独做出判断,再通过投票的方式做出最后的集体决策。

2、集成学习的步骤和例子

集成学习一般可分为以下3个步骤:

1)找到误差互相独立的基分类器

2)训练基分类器

3)合并基分类器的结果

3、基分类器

最常用的基分类器是决策树,主要有以下3个方面的原因。

(1)决策树可以较为方便地将样本的权重整合到训练过程中,而不需要使用过采样的方法来调整样本权重。

(2)决策树的表达能力和泛化能力,可以通过调节树的层数来做折中。

(3)数据样本的扰动对于决策树的影响较大,因此不同子样本集合生成的决策树基分类器随机性较大,这样的“不稳定学习器”更适合作为基分类器。此外,再决策树节点分裂的适合,随机地选择一个特征子集,从中找出最优分裂属性,很好地引入随机性。

4、偏差和方差

偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。

方差指的是所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。

Bagging能够提高弱分类器性能的原因是降低了方差,Boosting能够提升弱分类器性能的原因是降低了偏差。

5、梯度提升决策树的基本原理

6、XGBoost与GBDT的联系和区别

相关文章

  • 【百面机器学习】集成学习

    1、集成学习的种类 (1)集成学习分哪几种?它们有何异同? 1)Boosting Boosting方法训练基分类器...

  • 10.machine_learning_model_ensemb

    机器学习集成学习与boosting模型 机器学习中的集成学习 顾名思义,集成学习(ensemble learnin...

  • 梯度提升树(GBDT)

    sklearn机器学习库 集成学习(ensemble learning) 集成学习并非某一种机器学习算法,更像是一...

  • 3.1.1.8 集成学习

    集成学习 原理 《机器学习》周志华 8.1 个体与集成 集成学习(ensemble learning) 通过构建并...

  • 集成学习(面试准备)

    1、什么是集成学习 根据维基百科的说法:在统计学和机器学习中,集成学习方法使用多种学习算法来获得比单独使用任何单独...

  • 集成学习之AdaBoost

    一. AdaBoost介绍 我们在机器学习(八)-集成学习(Ensemble learning)中介绍了集成学习的...

  • Task5 模型集成

    这次主要学习的知识点是:集成学习方法、深度学习中的集成学习和结果后处理思路。 1、集成学习方法 在机器学习中的集成...

  • 《百面机器学习》pdf

    链接:https://pan.baidu.com/s/1KVzomGFkb1_MfaxYK262Pw 提取码:gqh0

  • 百面机器学习--Hulu

    以下内容为转发Hulu公众号的链接,更全内容可查看书籍 0 序 1 模型评估 2 SVM模型 3 优化简介 4 采...

  • 集成学习

    集成学习与个体学习器 集成学习是机器学习中常用的一种方法,常用的集成学习方法有boosting,bagging以及...

网友评论

    本文标题:【百面机器学习】集成学习

    本文链接:https://www.haomeiwen.com/subject/jemgjctx.html