- 什么是集成学习算法?
集成学习算法就是将多个弱分类器(回归器)合并,组合成一个新的学习器
2.为什么用集成学习算法?
-
弱分类器间存在一定的差异性,会导致分类的边界不同,会有较大的错误存在,将多个分类器融合,会得到合理的边界,减少错误率
-
数据集过大或者过小,可采用划分或者有放回的操作产生新数据集,然后根据产生的数据集训练不同的分类器,再融合成一个新的分类器
-
数据的划分边界划分过于复杂,使用线性模型很难描述, 可以训练多个模型,然后进行融合
-
对于多个异构特征,很难进行融合。那么可以考虑为每个数据集构建一个分类模型,然后将多个模型融合。
02C83892-F37C-4DCC-9D00-9CD4966B0FEB.png
3 Bagging 方法
自举汇聚法 有放回的采样 从M个样本的数据集中抽取S个数据集,每个数据集包含M个样本,S个数据集中有重复数据,去重,组成新的数据集训练模型,然后使用多数表决法和求均值的方式统计最终的结果
image.png
4 随机森林(Random Forest)
从Bagging策略基础上进行修改的一种算法
- 从原始样本集m个用Bootstrap采样 选出m个样本
- 从所有属性中随机选取k个属性,选择最佳的分割属性作为节点创建决策树
- 重复以上步骤s次,即建立s个决策树
- s个决策树组成随机森林,然后投票表决,决定数据属于那一类
决策树与随机森林的比较
做分支的时候 : 决策树考虑所有属性,随机森林是随机选取的属性
构建方式: 决策树从原始的K个特征中,每个特征都找到当前特征的最优分割点,然后基于最优分割点,找到最优分割属性
随机森林 随机抽取k个特征,找个每个特征的最优分割点,然后找到最优分割属性
随机森林算法:
1、随机有放回抽样,选取S个数据集,建立S个模型。
2、在每一个基模型构建过程中,对于划分决策树时,随机选择K个特征进行划分。
随机森林算法本身(bagging方法),不会对原有数据集中的数据内容进行改变,只是对数据集进行随机抽样。
5 RF(Random Forest)推广算法
- 主要应用在:分类,回归,特征转换。异常点检测
- 常见算法: Extra Tree,TRTE,Isolation Forest
Extra Tree
是RF的一个变种,原理与RF相同
区别: 1 RF随机重采样作为决策树的训练集,Extra Tree每个子决策树采用原始数据集训练
2 RF 在选择划分特征点的时候与传统的决策树一样,基于信息增益,信息增益率,gini系数,均方差选择最优特征值,Extra Tree会随机选一个特征值划分决策树
TRTE
非监督数据转化方式 将低维数据映射到高维,从而让映射到高维数据更好的应用到分类回归模型
IForest
异常点检测算法
RF的优缺点
--- 优点 ----
- 1 训练可以并行化,对于大规模样本训练具有速度优势
- 2 由于进行了随机选择决策树划分特征列表,这样样本维度较高,依然具有很高的训练性能
- 3 列举出了各个与特征的重要性列表
- 4 由于存在随机抽样 训练出来的模型方差小 泛化能力强
- 5 RF实现简单
- 6 对于部分特征的缺失不敏感
--- 缺点 ---
- 1 在某些噪声较大(数据特别异常)的特征上 容易陷入模型过拟合
- 2 取值比较多的划分特征对RF的决策会产生更大的影响,从而影响模型效果
网友评论