美文网首页
《统计学习方法》SVM约束最优化的错误

《统计学习方法》SVM约束最优化的错误

作者: pipicold | 来源:发表于2018-10-28 23:31 被阅读0次

    函数间隔和几何间隔的不同

    按照统计学习方法这本书的说法

    函数和几何间隔之间其实是一个线性的映射

    \gamma = \frac{\hat \gamma}{||w||}

    其中 \hat \gamma是函数间隔, \gamma是几何间隔

    而且几何间隔的定义是

    \gamma = y_i(\frac{w}{||w||}x+\frac{b}{||w||})

    其实我觉得他这样定义有问题


    约束最优化问题的表达无法理解

    书上说原问题可以表述为下面的最优化问题

    \max_{w,b} \gamma \\ s.t.\ y_i(\frac{w}{||w||}x+\frac{b}{||w||}) \geq \gamma,\ i=1,2,...,N

    但是其实约束项的左右两边是一样的(\gamma = y_i(\frac{w}{||w||}x+\frac{b}{||w||}))。。。

    看着十分奇怪

    就算之后用函数间隔替换了几何间隔, 但是还是有同样的问题:

    s.t.\ y_i(wx+b) \geq \hat \gamma,\ i=1,2,...,N; \hat \gamma = y_i(wx+b)

    那这样的话函数间隔还有什么意义。。。


    我认为的更好的解释

    函数间隔隐藏了“分类正确”这个条件

    按照定义来说,几何间隔应该是不考虑分类正确与否的

    举个例子, 如果正例(+1)被误分类到wx+b<0的区间里面了,那么函数间隔\hat \gamma' \leq 0, 几何间隔\gamma' \geq 0

    所以这两个之间的关系并不只是线性缩放, 并且保持符号相同的关系。可能符号会发生改变

    也就是说“函数间隔”隐藏了“分类正确这个大前提”, 所以

    y_i(\frac{w}{||w||}x+\frac{b}{||w||}) \neq\frac{1}{||w||}|wx+b| \\ \gamma \neq \frac{\hat \gamma}{||w||}

    原问题的新表述

    所以几何间隔\gamma应该满足“值永远为正数”这个条件

    \gamma = |\frac{w}{||w||}x+\frac{b}{||w||}| = \frac{1}{||w||}|wx+b|

    而约束最优化问题应该被如此表述:

    1. 优化目标:最大化几何间隔\gamma
    2. 约束条件:分类正确
    3. 约束条件: 每个训练样本点的距离至少是\gamma

    \max_{w,b} \gamma \\ s.t.\ y_i(\frac{w}{||w||}x+\frac{b}{||w||}) \geq \gamma,\ i=1,2,...,N

    约束条件左边的式子的意义是:“在分类正确的条件下的几何距离”,相较于右边式子多了一个条件

    所以有

    \max_{w,b} \frac{1}{||w||}|wx+b| \\ s.t.\ y_i(\frac{w}{||w||}x+\frac{b}{||w||}) \geq \frac{1}{||w||}|wx+b|,\ i=1,2,...,N

    约束条件里面的||w||可以左右消除

    \max_{w,b} \frac{1}{||w||}|wx+b| \\ s.t.\ y_i(wx+b) \geq |wx+b|,\ i=1,2,...,N

    和书上的原理一样, 因为|wx+b|对于解没有影响, 所以可以取|wx+b|=1, 于是有

    \max_{w,b} \frac{1}{||w||}\\ s.t.\ y_i(wx+b) \geq 1,\ i=1,2,...,N

    相关文章

      网友评论

          本文标题:《统计学习方法》SVM约束最优化的错误

          本文链接:https://www.haomeiwen.com/subject/ijxvtqtx.html