集成学习算法

作者: longsan0918 | 来源:发表于2019-01-26 15:42 被阅读83次

集成学习算法
机器学习算法原理篇之集成学习
GBDT
梯度提升树（GBDT）
Bagging和Boosting的概念与区别
集成学习系列1：boosting和bagging
集成学习算法
集成学习原理
机器学习实战之AdaBoost元算法
机器学习中的集成方法（2）--Bagging（装袋法）

什么是集成学习算法？
集成学习算法就是将多个弱分类器(回归器)合并，组合成一个新的学习器

2.为什么用集成学习算法？

弱分类器间存在一定的差异性，会导致分类的边界不同，会有较大的错误存在，将多个分类器融合，会得到合理的边界，减少错误率
数据集过大或者过小，可采用划分或者有放回的操作产生新数据集，然后根据产生的数据集训练不同的分类器，再融合成一个新的分类器
数据的划分边界划分过于复杂,使用线性模型很难描述, 可以训练多个模型，然后进行融合
对于多个异构特征，很难进行融合。那么可以考虑为每个数据集构建一个分类模型，然后将多个模型融合。

02C83892-F37C-4DCC-9D00-9CD4966B0FEB.png

3 Bagging 方法
自举汇聚法有放回的采样从M个样本的数据集中抽取S个数据集，每个数据集包含M个样本，S个数据集中有重复数据，去重，组成新的数据集训练模型，然后使用多数表决法和求均值的方式统计最终的结果

image.png

4 随机森林（Random Forest）
从Bagging策略基础上进行修改的一种算法

从原始样本集m个用Bootstrap采样选出m个样本
从所有属性中随机选取k个属性，选择最佳的分割属性作为节点创建决策树
重复以上步骤s次，即建立s个决策树
s个决策树组成随机森林，然后投票表决，决定数据属于那一类

决策树与随机森林的比较
做分支的时候 : 决策树考虑所有属性，随机森林是随机选取的属性

构建方式: 决策树从原始的K个特征中，每个特征都找到当前特征的最优分割点，然后基于最优分割点，找到最优分割属性
随机森林随机抽取k个特征，找个每个特征的最优分割点，然后找到最优分割属性

随机森林算法:
1、随机有放回抽样，选取S个数据集，建立S个模型。
2、在每一个基模型构建过程中，对于划分决策树时，随机选择K个特征进行划分。

随机森林算法本身(bagging方法)，不会对原有数据集中的数据内容进行改变，只是对数据集进行随机抽样。

5 RF(Random Forest)推广算法

主要应用在：分类，回归，特征转换。异常点检测
常见算法: Extra Tree,TRTE,Isolation Forest

Extra Tree

是RF的一个变种，原理与RF相同
区别: 1 RF随机重采样作为决策树的训练集，Extra Tree每个子决策树采用原始数据集训练
2 RF 在选择划分特征点的时候与传统的决策树一样，基于信息增益，信息增益率,gini系数，均方差选择最优特征值，Extra Tree会随机选一个特征值划分决策树

TRTE

非监督数据转化方式将低维数据映射到高维，从而让映射到高维数据更好的应用到分类回归模型

IForest

异常点检测算法

RF的优缺点

--- 优点 ----

1 训练可以并行化，对于大规模样本训练具有速度优势
2 由于进行了随机选择决策树划分特征列表，这样样本维度较高，依然具有很高的训练性能
3 列举出了各个与特征的重要性列表
4 由于存在随机抽样训练出来的模型方差小泛化能力强
5 RF实现简单
6 对于部分特征的缺失不敏感

--- 缺点 ---

1 在某些噪声较大（数据特别异常）的特征上容易陷入模型过拟合
2 取值比较多的划分特征对RF的决策会产生更大的影响，从而影响模型效果

网友评论

本文标题：集成学习算法

本文链接：https://www.haomeiwen.com/subject/nkkelqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

集成学习算法

Extra Tree

TRTE

IForest

RF的优缺点

相关文章