集成学习的两个基本问题

作者: 迪丽娜扎 | 来源:发表于2018-12-09 17:39 被阅读0次

第一个问题：如何产生好而不同的基学习器？

在2-1中证明集成后错误率降低的一个前提是，基学习器的错误率相互独立。假设我们在同一个样本集上用同一套参数训出若干个基学习器，理论上这些个学习器是一毛一样的。大白话来说就是在进行样本预测时，一对都对，一错都错，这样集成起来就也不会有神马改进作用了。

所以我们希望学习器之间尽可能的相互独立，或者叫好而不同。这样在进行样本预测时，有些能预测对，有些能预测错，但因为错误率都是低于0.5的，所以概率学上来说预测对的总是占多数，这样我们通过投票表决就能大大改善模型的预测作用了。

第二个问题：基学习器如何生成？以及生成后以什么方式组合在一起？

前面举得栗子是一种最简单的生成方式，相当于各个基学习器的生成没什么关系，各生成各的，但这是相对简单的方式，还有更复杂的。

如何组合在一起，投票表决是一种最简单的方式，但还是那句话，有更复杂的方式。

网友评论

本文标题：集成学习的两个基本问题

本文链接：https://www.haomeiwen.com/subject/oldkhqtx.html

集成学习的两个基本问题