Ensemble method集成方法

作者: 雨宝_f737 | 来源:发表于2018-12-21 11:33 被阅读0次

【机器学习实战】第7章集成方法（随机森林和 AdaBoost）
Ensemble method集成方法
gcForest
利用AdaBoost元算法提高分类性能
机器学习：集成算法 - bagging、boosting、ada
R 集成算法① adaboost
[机器学习入门] 李宏毅机器学习笔记-36（Ensemble p
[机器学习入门] 李宏毅机器学习笔记-35（Ensemble p
Feature Selection
集成学习资料

集成方法分为两类：

averaging方法(减少方差，因为在不同的子集上训练，学到不同的数据集的结果进行平均从而减少了方差)

boosting方法(减少偏差，不同的模型学习到不同的内容。)

方差和偏差的理解：方差为给定模型数据集，其输出结果的稳定性描述，方差大代表给模型一个数据扰动，它会对数据扰动反应强烈，输出一个偏离期望值的数；偏差描述的是模型能力行不行。

1.Bagging

随机子集的获取方法：pasting是无放回取样；bagging是有放回取样；Random subspace是特征的随机子集；Random Pathches是同时使用样本和特征的子集。bootstrap和bootstrap控制样本和特征是否有放回抽样。

2.随机森林

2.1Random Forests

随机森林中每一棵树是建立在随机样本上，在结点的分裂的时候考虑的不再是所有特征中的最优而是特征随机子集中的最优，这种随机性稍微增加了偏差（没那么准确），但是方差通过averaging方式减少了，就很棒啦。

2.2Extremely Randomized Trees

进一步增加随机性，在Random Forests的基础上划分节点的时候不再是寻找最优的判别阈值，阈值通过随机的方式获得，选择最优的。

2.3Parameters

对于回归问题，经验默认max_features=n_features,对于分类问题，max_features=sqrt(n_features)，n_features是数据特征数目。通常max_depth=None,min_samples_spilt=1。这些值通常不是最佳的，并且可能导致消耗大量RAM，最好的参数值应该是始终交叉验证的，另外注意，在随机森林中，默认使用抽样样本bootstrap=True，而极端随机森林中默认是使用整个数据集bootstrap=False。当使用抽样样本时，可以在包外样本上估计泛化精度，设置oob_score=True。

https://www.jianshu.com/p/5d7ebe35f50f

2.4并行化

通过设置n_jobs来在k个核上运行程序。

3.Adaboost+GBDT+XGBoost

默认使用decision stump决策树桩，单层决策树，只根据一个属性进行决策。