美文网首页
【ML】集成学习

【ML】集成学习

作者: 盐果儿 | 来源:发表于2023-03-08 18:53 被阅读0次

    1. 模型选择

    - 选择在测试集误差较小的模型

        - 缺点:面对未知数据表现不好

    - 集成学习

        - 缺点:集成模型组合可能会比其中性能最好的模型要差

        - 优点:降低了整体模型选择不当的风险

            - 原因:多样性

                - 使用不同数据集训练每一个分类器,eg: bootstrapping or baggin

                - 使用弱分类器,或者不稳定模型

    2. 数据太多/太少

    - 数据量太大:划分为较小的子集,单独训练分类器,再使用恰当的方法对分类器输出进行组合。

    - 数据量太小,那么使用bootstrapping技术可以从总体数据集中有放回的随机采样获得多个样本集,每个样本集作为训练集对分类器进行训练,这些样本集可以看作是从总体分布中得到的独立样本集。

    3. 分而治之

    从某种意义上来说,集成学习系统遵循一种分而治之的方法,将数据空间划分为更小、更易于学习的分区,其中每个模型只学习其中一个更简单的分区。然后通过不同方法来适当组合模型的输出来近似复杂决策边界。

    4. 数据融合

    5. 置信度估计

    二、模型集合的组合方法

    1. 线性组合

    2. 乘积组合

    3. 投票组合

    三、模型集合的学习算法

    - 鼓励多样性

        - 数据集的随机差异

            - 样本选择:bagging

            - 特征选择:Random Subspaces or rotation forests

            - 两者融合:the random forests algorithm

    - Example

        - Bagging

            - Bagging also known as bootstrap aggregation, is the ensemble learning method that is commonly used to reduce variance within a noisy dataset. In bagging, a random sample of data in a training set is selected with replacement—meaning that the individual data points can be chosen more than once. 

        - Boosting

            - 后续模型应该能够补偿早期模型所造成的错误。

        - Mixtures of Experts

            - https://zhuanlan.zhihu.com/p/542465517

    Reference:

    https://www.jianshu.com/p/3e8c44314be5

    https://blog.csdn.net/weixin_51545953/article/details/127347671

    https://www.jianshu.com/p/99d676bcd812

    https://www.ibm.com/topics/bagging#:~:text=Bagging%2C%20also%20known%20as%20bootstrap,be%20chosen%20more%20than%20once.

    同道中人

    https://www.jianshu.com/u/1438cea749b7

    相关文章

      网友评论

          本文标题:【ML】集成学习

          本文链接:https://www.haomeiwen.com/subject/jywmldtx.html