机器学习—提升和自适应增强（Boosting和AdaBoost）

作者: Bobby0322 | 来源:发表于2019-03-29 13:32 被阅读0次

boosting是一种集成技术，试图从多个弱分类器中创建强分类器。通过从训练数据构建一个模型，然后创建第二个模型试图纠正第一个模型中的错误。不断添加模型，直到训练集被完美地预测或者添加到最大数量。
AdaBoost是第一个为二分类开发的真正成功的提升算法。现代boosting方法建立在AdaBoost上，最著名的是随机梯度提升机（stochastic gradient boosting machines）。

提升和自适应增强（Boosting和AdaBoost）

AdaBoost用于短决策树。创建第一棵树之后，使用树在每个训练实例上的性能来得到一个权重，决定下一棵树对每个训练实例的注意力。
难以预测的训练数据被赋予更多权重，而易于预测的实例被赋予更少的权重。模型是一个接一个地顺序创建的，每个模型更新训练实例上的权重，这些权重影响序列中下一个树所执行的学习。构建完所有树之后，将对新数据进行预测。
因为着重于修正算法的错误，所以重要的是提前清洗好数据，去掉异常值。

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

算法简介

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征，并放在关键的训练数据上面。

算法应用

对adaBoost算法的研究以及应用大多集中于分类问题，同时也出现了一些在回归问题上的应用。就其应用adaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题、回归问题。它用全部的训练样本进行学习。

应用示例

adaboost 是 bosting 的方法之一，bosting就是把若干个分类效果并不好的分类器综合起来考虑，会得到一个效果比较好的分类器。
下图，左右两个决策树，单个看是效果不怎么好的，但是把同样的数据投入进去，把两个结果加起来考虑，就会增加可信度。

adaboost 的栗子，手写识别中，在画板上可以抓取到很多 features，例如始点的方向，始点和终点的距离等等。

training 的时候，会得到每个 feature 的 weight，例如 2 和 3 的开头部分很像，这个 feature 对分类起到的作用很小，它的权重也就会较小。

而这个 alpha 角就具有很强的识别性，这个 feature 的权重就会较大，最后的预测结果是综合考虑这些 feature 的结果。

网友评论

本文标题：机器学习—提升和自适应增强（Boosting和AdaBoost）

本文链接：https://www.haomeiwen.com/subject/judlbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！