机器学习技法--SVM的对偶问题

作者: sonack | 来源:发表于2017-02-18 17:29 被阅读2846次

    本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第二章的内容,主要介绍了Hard Margin SVM Dual的基本概念和求解方法、支撑向量的几何含义等,文中的图片都是截取自在线课程的讲义。
    欢迎到我的博客跟踪最新的内容变化。
    如果有任何错误或者建议,欢迎指出,感激不尽!


    对偶问题的动机

    原来的SVM如果要进行非线性变换,需要在转换后的Z空间(假设为d~维度)内进行linear SVM的求解,则在Z空间里的线性分类对应到原来的X空间可能就是一个non-linear的复杂边界。

    问题:Z空间的QP问题有d+1个变量、N个约束。如果d非常大甚至无穷大,就很难甚至不可能求解。

    目标:让SVM模型的求解不再依赖转换后的空间维度d~,以能够使用非常多的、非常复杂的特征转换。

    将original问题转换为dual(对偶)问题,该问题与原问题等价即可。

    基本工具: Lagrange Multipliers

    将Lagrange Multipliers当做变量求解,SVM中的每一个条件都会对应一个Lagrange Multiplier,所以共有N个变量。

    注意:在SVM的文献中通常把Lagrange Multipliers的λ叫做α。

    出发点

    将有约束优化问题转换为无约束的优化问题。

    原始问题:

    定义Lagrange Function:

    则原始问题等价于

    如何证明两个问题的解一样?

    考虑两种情况:

    • 如果某个(b,W)不满足原始问题的N个条件之一,即某个1-yn(W’Zn+b)>0,则内部的Max操作会将αn推向无穷大,在min操作中会被淘汰。
    • 如果某个(b,W)满足原始问题的所有约束,则内部Max将所有的αi都推向0,即内部的max结果就是目标的1/2W’W的值,在外部的min操作中就会取得满足条件的(b,W)中目标函数最小的组合,和原始问题一样。

    本质上就是把条件藏在了max操作里面,不满足条件的(b,W)一定不会被选择。

    现在我们有了新的问题,它有哪些性质呢?

    对于任何确定的α'【满足每一个元素α'n>=0】,则有

    因为对于某一个(b,W),内部的max(L)始终大于等于L,则左边的最低点也一定大于等于右边的最低点。
    简单地说,因为max>=any。

    因为对于任何α'都有上式成立,所以

    因为最大的是任意的α'中的某一个。

    观察发现,只不过是把min和max操作交换了顺序,称该问题为Lagrange对偶问题。

    只要我们解决了Lagrange Dual Problem,就得到了original problem的一个下限。

    对偶性的强弱

    • '>=':弱对偶性(weak duality)
    • '=': 强对偶性(strong duality)

    由最优化理论可得:
    对于QP问题,如果满足:

    1. 原始问题是凸型的 convex primal
    2. 原始问题是有解的(如果Φ转换后数据点是线性可分的,则成立) feasible primal
    3. 线性约束条件
      称为 '条件资格' (constraint qualification)。

    则对偶问题是强对偶问题,即存在原始-对偶最优解(b,W,α)在两侧都能最优。

    化简对偶问题

    inner problem:里面的问题,即min操作,是没有条件约束的,因此在最优点上,满足:

    因此,加上该条件的最优解不变。

    加上该条件,可以把变量b消去。

    同理,对W进行类似的处理:

    把最优解的条件加在对偶问题上:

    求解b和W

    现在最佳化问题只有变量α了,其他变量b和W根据和α的关系被α所表示。
    求得α后,再根据这些关系求出b和W。

    这些关系,我们一般叫做KKT最优条件(KKT Optimality Conditions)
    KKT是三个做最优化的研究者的名字首字母(Karush-Kuhn-Tucker)。

    如果原始-对偶最优解(b,W,α):

    其中第4个条件,一般称为互补松弛条件(complementary slackness)

    以上的推导说明KKT条件是最优解的必要条件[necessary],但也可以证明对于我们的问题来说,它也是充分的[sufficient]。

    因此我们可以利用KKT条件根据最优的α来求解(b,W)。

    Standard Hard-Margin SVM dual

    再做一些微小的改写:

    该问题称为“标准硬边界SVM的对偶问题”。

    该问题仍然是一个QP凸问题,有N个变量(α1..N),N+1个条件(一个=0,N个>=0)。

    仍然使用QP Solver求解。

    QP系数

    注意:很多QP程序可以很方便的直接特殊处理等式(A>=、A<=)或者边界类条件(an>=0),这样可以保证它们的数值稳定性

    Q矩阵中的元素q(n,m)一般非0,是稠密矩阵(dense),且N大时,Q矩阵很大。

    因此需要特殊的求解QP的程序(专门为SVM设计的),不存储整个Q矩阵,或者利用SVM的一些特殊条件来加速求解。

    因此在实践中,我们通常最好使用特别为SVM设计的QP求解算法。

    获得b和W

    利用KKT条件:

    得到W:

    得到b:

    和b有关的约束



    只能告诉我们一个b的范围

    如果某个αn>0 ==> (1 - yn(W’Zn + b)) = 0
    两边都乘上yn,得
    (yn - (W’Zn + b)) = 0

    b = yn - W’Zn

    上式告诉我们 yn(W’Zn + b) = 1,说明该点在胖胖的边界上,即是一个支撑向量(Support Vector)。

    支撑向量的确切定义

    我们把αn>0的点(Zn,yn)叫做support vectors,即支撑向量。

    它一定在胖胖的边界上,但不是所有在胖胖的边界上的点都是SV,它们都是support vectors candidate。


    SV的性质

    计算W和b时,只需要用到支撑向量SV的点。

    所以SVM是一种利用求解对偶问题的最优解,找出支撑向量来学习出最胖的分隔超平面的过程。

    最胖分隔超平面的表示形式

    即W是ynZn的线性组合。

    这对于当W0=0时,使用GD/SGD的LogReg或者LinReg也成立。

    称作 W 能够被 数据点 所表示(represented)。

    SVM: 只需要SV就可以线性表示出W。

    PLA: 只需要犯错的点就可以线性表示W。

    Hard-Margin SVM的两种形式

    两者最终都是得到最优的假设函数:

    我们真的做到脱离d~了吗?

    其实没有,计算Q矩阵时,每个q(n,m)都需要计算Zn'Zm,这是一个在R(d)空间中的两个向量的内积,需要时间至少为O(d)。

    因此我们要想办法避开计算转换后的高维空间中向量的内积。

    这部分内容需要利用kernel function的威力,我们在下一讲进行探讨。


    Mind Map Summary


    有关Kernel SVM及更多机器学习算法相关的内容将在日后的几篇文章中分别给出,敬请关注!

    相关文章

      网友评论

        本文标题:机器学习技法--SVM的对偶问题

        本文链接:https://www.haomeiwen.com/subject/ldfdwttx.html