第一个问题:如何产生好而不同的基学习器?
在2-1中证明集成后错误率降低的一个前提是,基学习器的错误率相互独立。假设我们在同一个样本集上用同一套参数训出若干个基学习器,理论上这些个学习器是一毛一样的。大白话来说就是在进行样本预测时,一对都对,一错都错,这样集成起来就也不会有神马改进作用了。
所以我们希望学习器之间尽可能的相互独立,或者叫好而不同。这样在进行样本预测时,有些能预测对,有些能预测错,但因为错误率都是低于0.5的,所以概率学上来说预测对的总是占多数,这样我们通过投票表决就能大大改善模型的预测作用了。
第二个问题:基学习器如何生成?以及生成后以什么方式组合在一起?
前面举得栗子是一种最简单的生成方式,相当于各个基学习器的生成没什么关系,各生成各的,但这是相对简单的方式,还有更复杂的。
如何组合在一起,投票表决是一种最简单的方式,但还是那句话,有更复杂的方式。
网友评论