集成方法：随机森林 vs AdaBoost

作者: 松鼠的读书笔记 | 来源:发表于2019-01-23 21:45 被阅读135次

01 随机森林

Bagging核心思想：采用有放回的采样规则，从m个样本点中抽取n个数据构建一个新的训练数据集，用这个数据集来训练模型，重复上述过程B次，得到B个模型。采用投票或取平均值方式进行预测。

随机森林算法思想：在Bagging的基础上，对特征也进行抽样构建每次的训练数据集。RF的基学习器主要为CART树。

关键参数：决策树的个数、构建单棵决策树特征的个数。

优点：

适合处理多分类问题及类别不平衡的分类问题，对缺失值异常值不敏感

能够有效地处理大的数据集和高维数据集，无须进行特征选择

有袋外数据OOB，不用再单独划分交叉验证集

能够给出特征重要性程度

不容易过拟合

容易并行化，训练和预测速度快

缺点：对有不同取值的属性数据，取值划分较多的属性会对随机森林产生更大的影响（使用了信息增益）

02 Adaboost

提升方法：通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的精度。

两个基本问题：

每一轮如何改变训练样本的权重

如何将弱分类器组合成一个强分类器

Adaboost的做法：

提高那些被前一轮弱分类错误分类样本的权值，而降低那些被正确分类样本的权值

加权多数表决，加大分类误差小的弱分类器权重，减小分类误差大的弱分类器权重

Boosting

AdaBoost

本文标题：集成方法：随机森林 vs AdaBoost

本文链接：https://www.haomeiwen.com/subject/aqghjqtx.html