01 随机森林
Bagging核心思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复上述过程B次,得到B个模型。采用投票或取平均值方式进行预测。
随机森林算法思想:在Bagging的基础上,对特征也进行抽样构建每次的训练数据集。RF的基学习器主要为CART树。
关键参数:决策树的个数、构建单棵决策树特征的个数。
优点:
适合处理多分类问题及类别不平衡的分类问题,对缺失值异常值不敏感
能够有效地处理大的数据集和高维数据集,无须进行特征选择
有袋外数据OOB,不用再单独划分交叉验证集
能够给出特征重要性程度
不容易过拟合
容易并行化,训练和预测速度快
缺点:对有不同取值的属性数据,取值划分较多的属性会对随机森林产生更大的影响(使用了信息增益)
02 Adaboost
提升方法:通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的精度。
两个基本问题:
每一轮如何改变训练样本的权重
如何将弱分类器组合成一个强分类器
Adaboost的做法:
提高那些被前一轮弱分类错误分类样本的权值,而降低那些被正确分类样本的权值
加权多数表决,加大分类误差小的弱分类器权重,减小分类误差大的弱分类器权重
![](https://img.haomeiwen.com/i6778119/834e939a9fff140f.png)
![](https://img.haomeiwen.com/i6778119/78815a3fef15497a.png)
网友评论