1. 模型选择
- 选择在测试集误差较小的模型
- 缺点:面对未知数据表现不好
- 集成学习
- 缺点:集成模型组合可能会比其中性能最好的模型要差
- 优点:降低了整体模型选择不当的风险
- 原因:多样性
- 使用不同数据集训练每一个分类器,eg: bootstrapping or baggin
- 使用弱分类器,或者不稳定模型
2. 数据太多/太少
- 数据量太大:划分为较小的子集,单独训练分类器,再使用恰当的方法对分类器输出进行组合。
- 数据量太小,那么使用bootstrapping技术可以从总体数据集中有放回的随机采样获得多个样本集,每个样本集作为训练集对分类器进行训练,这些样本集可以看作是从总体分布中得到的独立样本集。
3. 分而治之
从某种意义上来说,集成学习系统遵循一种分而治之的方法,将数据空间划分为更小、更易于学习的分区,其中每个模型只学习其中一个更简单的分区。然后通过不同方法来适当组合模型的输出来近似复杂决策边界。
4. 数据融合
5. 置信度估计
二、模型集合的组合方法
1. 线性组合
2. 乘积组合
3. 投票组合
三、模型集合的学习算法
- 鼓励多样性
- 数据集的随机差异
- 样本选择:bagging
- 特征选择:Random Subspaces or rotation forests
- 两者融合:the random forests algorithm
- Example
- Bagging
- Bagging also known as bootstrap aggregation, is the ensemble learning method that is commonly used to reduce variance within a noisy dataset. In bagging, a random sample of data in a training set is selected with replacement—meaning that the individual data points can be chosen more than once.
- Boosting
- 后续模型应该能够补偿早期模型所造成的错误。
- Mixtures of Experts
- https://zhuanlan.zhihu.com/p/542465517
Reference:
https://www.jianshu.com/p/3e8c44314be5
https://blog.csdn.net/weixin_51545953/article/details/127347671
https://www.jianshu.com/p/99d676bcd812
https://www.ibm.com/topics/bagging#:~:text=Bagging%2C%20also%20known%20as%20bootstrap,be%20chosen%20more%20than%20once.
同道中人
https://www.jianshu.com/u/1438cea749b7
网友评论