介绍

集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中，我会分享我在Kaggle比赛中的集成方法。

在第一部分中，我们会讨论从提交文件中建立集成。主要包括：

投票集成
平均
排名平均

第二部分我们会讨论通过 generalization/blending等方法来创建集成。

我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法，包括它们的结果以及代码以供你自己去尝试。

怎样赢得机器学习比赛：你拿别人的结果和你自己的结果与做集成。 —— Vitaly Kuznetsov NIPS2014。

对提交文件进行集成

最简单方便的办法就是对Kaggle提交的csv文件直接进行集成。你只需要模型在测试集上的预测结果，而不需要重新训练一个模型。它简单快速，只需使用已有模型的预测结果，是拼队的理想选择。

投票集成(预测结果为类别时)

我们先看一下简单的投票集成方法。来看看为什么集成模型能够减少错误率，和为什么它能在模型间相关度较低时能取得更好的结果。

纠错码

在航天任务中，所有的信号都被正确的传达是非常重要的。

如果我们有一个二进制字符串形式的信号，如：

1110110011101111011111011011

如果信号在传输过程中有一位发生了翻转（第二位），变成了

1010110011101111011111011011

那这可能是致命的。

在纠错码中有一个编码解决方案。在最简单的情况下，即纠错码是重复码时：以同样大小的数据块多次传递信号，并进行投票（以少数服从多数原则）。

Original signal:
1110110011

Encoded:
10,3 101011001111101100111110110011

Decoding:
1010110011
1110110011
1110110011

Majority vote:
1110110011

信号失真很少发生且通常在局部发生，因此，多次投票依然出错的可能性就更小了。

只要信号失真不是完全不可预测的（有50%的几率发生），信号就能被修复。

一个机器学习的例子

假设我们的测试集有10个样本，正确的情况应该都是1：

1111111111

我们有3个正确率为70%的二分类器记为A,B,C。你可以将这些分类器视为伪随机数产生器，以70%的概率产生”1”，30%的概率产生”0”。

下面我们会展示这些伪分类器通过投票集成的方法得到78%的正确率。

涉及到一点数学

All three are correct
  0.7 * 0.7 * 0.7
= 0.3429

Two are correct
  0.7 * 0.7 * 0.3
+ 0.7 * 0.3 * 0.7
+ 0.3 * 0.7 * 0.7
= 0.4409

Two are wrong
  0.3 * 0.3 * 0.7
+ 0.3 * 0.7 * 0.3
+ 0.7 * 0.3 * 0.3
= 0.189

All three are wrong
  0.3 * 0.3 * 0.3
= 0.027

我们看到有44%的概率投票可以校正大部分错误。大部分投票集成会使最终的准确率变成78%左右(0.3429 + 0.4409 = 0.7838)。