美文网首页
集成学习的两个基本问题

集成学习的两个基本问题

作者: 迪丽娜扎 | 来源:发表于2018-12-09 17:39 被阅读0次

    第一个问题:如何产生好而不同的基学习器?

    在2-1中证明集成后错误率降低的一个前提是,基学习器的错误率相互独立。假设我们在同一个样本集上用同一套参数训出若干个基学习器,理论上这些个学习器是一毛一样的。大白话来说就是在进行样本预测时,一对都对,一错都错,这样集成起来就也不会有神马改进作用了。

    所以我们希望学习器之间尽可能的相互独立,或者叫好而不同。这样在进行样本预测时,有些能预测对,有些能预测错,但因为错误率都是低于0.5的,所以概率学上来说预测对的总是占多数,这样我们通过投票表决就能大大改善模型的预测作用了。

    第二个问题:基学习器如何生成?以及生成后以什么方式组合在一起?

    前面举得栗子是一种最简单的生成方式,相当于各个基学习器的生成没什么关系,各生成各的,但这是相对简单的方式,还有更复杂的。

    如何组合在一起,投票表决是一种最简单的方式,但还是那句话,有更复杂的方式。

    相关文章

      网友评论

          本文标题:集成学习的两个基本问题

          本文链接:https://www.haomeiwen.com/subject/oldkhqtx.html