深度学习158页中提到集成的平方误差的期望会随着集成的规模的增大而线性减小。
boosting是利用多个弱分类器,并给予各个弱分类器不同大小的权重来共同完成分类。
那为什么会产生多个分类器呢?
因为根据分类是否正确,更新各个的权重值。每一轮学习,增大上一轮的误分类样本的权值,降低正确分类样本的权值。
![](https://img.haomeiwen.com/i14385509/f15fe5113e9f146a.png)
这样就能让错误样本在下一轮学习中起到更大的作用,从而产生不同的若分类器。
那么弱分类器的权重如何计算呢?
若分类器分类之后产生误差越小则说明这个分类器越好。因此分类器的权重由公式计算可以得到:
![](https://img.haomeiwen.com/i14385509/09745c770e5b1436.png)
其中很容易可以看出当误差为0时,系数趋于无穷大。当误差为1时,系数趋于0。
之后各个弱分类器与权重线性组合就可以得到一个强分类器了:
![](https://img.haomeiwen.com/i14385509/da76e781eff218b6.png)
bagging与boosting不同,bagging随机采样,所以样本不同,但是分类器相同,通过投票机制,组合成强分类器。 但是boosting样本相同,分类器却不同,与的得到的权重线性组合得到强分类器。并且其中最具有代表性的就是随机森林。而且神经网络的随机初始化和小批量随机选择也是从模型平均中受益。
随机森林:假设样本有m个特征,随机选择其中的n个特征,之后在这n个特征中随机抽取i个样本。重复上述操作k次,建立k个CART决策树。之后k个决策树对样本进行分类,采用投票机制,选出得票数最多的那一类。
网友评论