对偶问题
我们希望求解式子
来得到最大间隔划分超平面所对应的模型
其中w和b是模型参数。
对式使用拉格朗日乘子法可得到其“对偶问题”,即对式的每条约束添加拉格朗日乘子,则该问题的拉格朗日函数可写成:
其中。对式可作如下展开:
对w和b分别求偏导数并令其等于0:
最终得到以下两式:
将代入式,即可将中的w和b消去,再考虑约束,就得到式的对偶问题。
解出后,求出w与b即可得到模型:
上述过程需满足KKT条件,即要求:
至此,一切都很完美。但这里有个前提,数据必须100%线性可分。然而实际上,几乎所有的数据都不怎么“干净”。我们可以用软间隔来解决这个问题。
软间隔
由于数据存在一些噪声、不是完全线性可分,所以我们允许某些样本不满足约束
这称为“软间隔”,而前面介绍的所有样本都要满足约束,即全部划分正确的,称之为“硬间隔”。
软间隔允许存在一点点错误,于是我们的优化目标改写成:
其中C是一个常数,是“0/1损失函数”,类似于sigmoid函数,不符合条件(损失)为1,符合为0。这里将设为z,那么
但由于非凸非连续,求解比较困难,通常用其他函数来替代,称为“替代损失”。这里采用hinge损失,式子改写为
设为z,那么当z符合约束,即时,hinge(z)为0,当时,,此时画图可以发现是连续函数。
引入松弛变量,可将式子重写为
软间隔的求解过程跟前面硬间隔的求解过程类似,也是转成对偶问题,然后利用KKT条件,这里不再赘述,省略具体推导过程。
将约束乘以拉格朗日乘子和,加入式子求偏导为0得
代入拉格朗日函数得对偶问题
KKT条件:
从第三个条件可以知道,对于任意样本,总有或者。若,则该样本对f(x)不会有影响;若,则必有,即该样本为支持向量。其中,若,则,进而有,即该样本恰好在最大间隔边界上;若,则,此时若,则该样本落在最大间隔内部,若,则该样本被错误分类。
网友评论