美文网首页
集成学习算法

集成学习算法

作者: longsan0918 | 来源:发表于2019-01-26 15:42 被阅读83次
    1. 什么是集成学习算法?
      集成学习算法就是将多个弱分类器(回归器)合并,组合成一个新的学习器

    2.为什么用集成学习算法?

    • 弱分类器间存在一定的差异性,会导致分类的边界不同,会有较大的错误存在,将多个分类器融合,会得到合理的边界,减少错误率

    • 数据集过大或者过小,可采用划分或者有放回的操作产生新数据集,然后根据产生的数据集训练不同的分类器,再融合成一个新的分类器

    • 数据的划分边界划分过于复杂,使用线性模型很难描述, 可以训练多个模型,然后进行融合

    • 对于多个异构特征,很难进行融合。那么可以考虑为每个数据集构建一个分类模型,然后将多个模型融合。


      02C83892-F37C-4DCC-9D00-9CD4966B0FEB.png

    3 Bagging 方法
    自举汇聚法 有放回的采样 从M个样本的数据集中抽取S个数据集,每个数据集包含M个样本,S个数据集中有重复数据,去重,组成新的数据集训练模型,然后使用多数表决法和求均值的方式统计最终的结果


    image.png

    4 随机森林(Random Forest)
    从Bagging策略基础上进行修改的一种算法

    • 从原始样本集m个用Bootstrap采样 选出m个样本
    • 从所有属性中随机选取k个属性,选择最佳的分割属性作为节点创建决策树
    • 重复以上步骤s次,即建立s个决策树
    • s个决策树组成随机森林,然后投票表决,决定数据属于那一类

    决策树与随机森林的比较
    做分支的时候 : 决策树考虑所有属性,随机森林是随机选取的属性

    构建方式: 决策树从原始的K个特征中,每个特征都找到当前特征的最优分割点,然后基于最优分割点,找到最优分割属性
    随机森林 随机抽取k个特征,找个每个特征的最优分割点,然后找到最优分割属性

    随机森林算法:
    1、随机有放回抽样,选取S个数据集,建立S个模型。
    2、在每一个基模型构建过程中,对于划分决策树时,随机选择K个特征进行划分。

    随机森林算法本身(bagging方法),不会对原有数据集中的数据内容进行改变,只是对数据集进行随机抽样。

    5 RF(Random Forest)推广算法

    • 主要应用在:分类,回归,特征转换。异常点检测
    • 常见算法: Extra Tree,TRTE,Isolation Forest
    Extra Tree

    是RF的一个变种,原理与RF相同
    区别: 1 RF随机重采样作为决策树的训练集,Extra Tree每个子决策树采用原始数据集训练
    2 RF 在选择划分特征点的时候与传统的决策树一样,基于信息增益,信息增益率,gini系数,均方差选择最优特征值,Extra Tree会随机选一个特征值划分决策树

    TRTE

    非监督数据转化方式 将低维数据映射到高维,从而让映射到高维数据更好的应用到分类回归模型

    IForest

    异常点检测算法

    RF的优缺点

    --- 优点 ----

    • 1 训练可以并行化,对于大规模样本训练具有速度优势
    • 2 由于进行了随机选择决策树划分特征列表,这样样本维度较高,依然具有很高的训练性能
    • 3 列举出了各个与特征的重要性列表
    • 4 由于存在随机抽样 训练出来的模型方差小 泛化能力强
    • 5 RF实现简单
    • 6 对于部分特征的缺失不敏感

    --- 缺点 ---

    • 1 在某些噪声较大(数据特别异常)的特征上 容易陷入模型过拟合
    • 2 取值比较多的划分特征对RF的决策会产生更大的影响,从而影响模型效果

    相关文章

      网友评论

          本文标题:集成学习算法

          本文链接:https://www.haomeiwen.com/subject/nkkelqtx.html