提升

作者: 哈劳斯军士 | 来源:发表于2017-12-20 06:36 被阅读41次

引言

一个弱分类器，采样一次的正确率如果是p，那么我们连续采样n次，最后的正确率为可以用二项式定理描述:
![Binomial equation][equtation]
[equtation]:http://latex.codecogs.com/svg.latex?P_{total}=\sum_{i=0}^{n}C_nip^i(1-p){n-i}
我们试着计算一下，如果一个效果很差的弱分类器(p=0.55)，我们一次性搞500次分类，那么正确的概率是多少。

Bagging原理

我们发现，当采样次数到了170次以上时，分类器的效果就已经到达了90%以上，可以认为是一个堪用的分类器了。

这就像是出差时躺在旅馆里摇微信，每次摇中心仪目标的概率都很小，但是如果我们坚持要下去，大数定理会给我们希望的答案。

我们可以将这种方法视作一种简单的提升（boosting）方法，这种方法广泛应用在机器学习的实践过程中。

损失函数

回顾之前学过的内容，我们可以这样理解损失函数：
给定输入向量x和输出变量y组成的若干训练样本(x_1,y_1),(x_2,y_2)...(x_n,y_n)，目标是找到近似函数hat F(x)，使损失函数L(y,F(x))的损失值最小：

损失函数L(y,F(x))的典型定义为：

![][equtation3]
[equtation3]:http://latex.codecogs.com/svg.latex?L(y,F(\vec{x}))=\frac{1}{2}(y-F(\vec{x}))^2

或

![][equtation4]
[equtation4]:http://latex.codecogs.com/svg.latex?L(y,F(\vec{x}))=\left|y-F(\vec{x})\right|

是否想起了线性回归中的L1正则项和L2正则项？

附：数学小知识

![此时的mu是中位数][equtation1]
[equtation1]: http://latex.codecogs.com/svg.latex?\mu^{*=arg,min\sum_{i=1}}n\left|{x_i-\mu}\right|
![此时的mu是均值][equtation2]
[equtation2]: http://latex.codecogs.com/svg.latex?\mu^{*=arg,min,\frac{1}{2}\sum_{i=1}}n(x_i-\mu)^2
第一个方程的解实际上是mu的中位数，第二个方程的解是均值，都非常容易证明。

网友评论

本文标题：提升

本文链接：https://www.haomeiwen.com/subject/gtysxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

提升

引言

损失函数

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读