随机森林(RF)
一句话概括:
多棵决策树(CART)通过 Bagging 方法组成随机森林。参考文章:
[1] [Machine Learning & Algorithm] 随机森林(Random Forest)
[2] 随机森林补充:
随机森林为什么可以用于处理缺失值和异常值?
在构造每棵决策树时,都是从M个特征中选择m个特征组成一个集合,在这个集合中进行特征选择。因此,如果某些特征值缺失或值异常,这些特征的重要性会比较小,不会选取到这些特征。随机森林为什么不容易过拟合,为什么对噪声不敏感?
随机森林采用 Bagging 方法,bootstrap sample 采样,每棵决策树的数据集独立性较强(如果独立性很弱,训练集差不多都相同,和一棵树的情况就差不多了),因此可以降低方差,不容易过拟合。(也可以理解为随机森林等价于交叉验证)。
梯度提升决策树(GBDT)、多重累加回归树(MART)
一句话概括:
基学习器是CART的基于梯度提升的 Boosting 方法,改进后可以解决分类问题(GBDT原理与实践-多分类篇)。参考文章:
[1] GBDT详解
[2] GBDT原理与Sklearn源码分析-回归篇
[3] GBDT原理与Sklearn源码分析-分类篇
[4] GBDT原理与实践-多分类篇
[5] 『机器学习笔记 』GBDT原理-Gradient Boosting Decision Tree
[6] 浅谈 GBDT
XGBoost
一句话概述:
XGBoost 是梯度提升算法的高效实现,基学习器除了可以是CART,也可以是线性分类器。参考文章:
[1] xgboost原理及应用--转
RF、GBDT、XGBoost 对比
参考文章:
[1] RF、GBDT、XGBoost面试级整理
[2] 为什么XGBoost在机器学习竞赛中表现如此卓越?
前沿更先进的方法
参考文章:
[1] 开源 | 微软开源GB框架LightGBM,表现超越已有boosting工具
[2] 入门 | 从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同
[3] 机器不学习:机器学习时代三大神器GBDT、XGBoost、LightGBM
网友评论