集成学习

作者: Zaker_cook | 来源:发表于2019-12-16 14:48 被阅读0次

11 集成学习 - XGBoost案例 - 波士顿房价进行预测
2019-03-02
3.1.1.8 集成学习
10.machine_learning_model_ensemb
西瓜书学习笔记-集成学习
Task5 模型集成
AdaBoost模型
CV-模型集成
集成学习
使用sklearn进行集成学习理论与实践 Random For

问题

1. 什么是集成学习，以及为什么要使用集成学习

2. 集成学习常见思想都有哪些，以及它们都有什么作用

3. 哪些算法是基于集成学习的思想

1. 集成学习的概念以及为什么要使用集成学习

概念

集成学习是将若干个同一类的弱学习器组合成一个强学习器

为什么要使用集成学习

a. 弱学习器可能存在错误，合并多个弱学习器后，可以减少整体的错误率

b. 对过大或过小的数据集，可进行有放回的抽样，产生不同的数据子集，并训练不同弱学习器，最后再合并成一个强学习器

c. 数据划分过于复杂，使用线性模型难以描述，可训练多个模型后再进行模型融合

d. 多个异构特征(如：线上线下的数据)，难以融合，可对每个数据集构建一个模型，最后再将多个模型融合

2. 集成学习常见思想

a. Bagging 思想

Bagging图示

在原数据集中，通过有放回的随机抽样，选择出S个子数据集，并对这些子数据集中的数据进行去重操作，再分别训练S个同一类的弱学习器。如果是分类问题，最终结果是各学习器结果中最多的类别，如果是回归问题，最终结果是各学习器结果的均值。

Bagging思想中的弱学习器可以是：Linear、Ridge、Lasso、Logistic、Softmax、决策树、SVM、KNN等

Bagging思想的主要目的是 缓解过拟合

oob 袋外数据：由于是有放回的随机抽样，就会使得部分数据未能参与到模型训练中，所以可使用这部份数据对模型进行评估，这部分数据大约占比在36%

b. Boosting 思想

Boosting图示

Boosting 是一种迭代的集成学习，构建过程是一种串行结构，每一个弱学习器是基于上一个弱学习器预测效果的基础上，对数据做一定的变化后进行构建的，最后将各个弱学习器预测效果融合之后作为最后的效果。

Boosting 思想的主要目的是 缓解欠拟合

3. 基于集成学习思想的算法

基于Bagging思想

随机森林算法流程

随机森林

a. 从原始数据集中，用有放回采样，随机选出N个去重后的子数据集

b. 从子数据集中，随机选择K个属性来训练决策树

c. 重复 a 和 b 步骤，建立M棵决策树

d. 从M棵决策树的预测结果中，通过多数投票决定数据属于哪一类

随机森林算法优缺点

优点

1. 训练速度快，这是因为各个子模型是独立的，训练时可以并行

2. 训练性能高，这是因为在高维度的情况下，随机选择特征属性

3. 泛化能力强，由于在抽取样本时，是有放回的采样，训练出来的模型方差小

4. 对于部分缺失数据不敏感

5. 训练完后，可以给出特征重要性权重

缺点

1. 在某些噪声数据比较大的数据中，容易陷入过拟合

2. 在取值较多的划分特征属性中，可能会影响模型效果

基于Boosting思想

AdaBoost工作机制

首先基于等权重的训练样本数据训练一个弱学习器，其次根据该学习器的预测效果，增大预测错误样本数据的权重，减小预测正确样本数据的权重，以此构成新的训练样本数据，并训练下一个弱学习器，以此反复迭代，直到满足跳出迭代的条件，最后将所有弱学习器加权合并为强学习器。(各弱学习器权重跟学习器预测效果有关，效果好，权重大，反之权重小)