用讲故事的办法帮你理解SMO算法

作者: 工程师milter | 来源:发表于2017-03-24 21:01 被阅读6767次

用讲故事的办法帮你理解SMO算法
机器学习之SMO算法
SMO算法
SVM（支持向量机）笔记-SMO算法、核函数，代码实现
SMO算法实现
12 SVM - SMO - 初始β变量的选择、总结
启发式算法
SMO 算法
SVM 由浅入深的尝试（四）软间隔最大化的理解
支持向量机(SVM)的SMO算法实现

SVM通常用对偶问题来求解，这样的好处有两个：1、变量只有N个（N为训练集中的样本个数），原始问题中的变量数量与样本点的特征个数相同，当样本特征非常多时，求解难度较大。2、可以方便地引入核函数，求解非线性SVM。求解对偶问题，常用的算法是SMO，彻底地理解这个算法对初学者有一定难度，本文尝试模拟算法作者发明该算法的思考过程，让大家轻轻松松理解SMO算法。文中的“我”拟指发明算法的大神。

001、初生牛犊不怕虎

最近，不少哥们儿向我反映，SVM对偶问题的求解算法太低效，训练集很大时，算法还没有蜗牛爬得快，很多世界著名的学者都在研究新的算法呢。听闻此言，我心头一喜：“兄弟我扬名立万的机会来了！”

我打开书，找出问题，看到是这个样子的：

2.PNG

这明显就是一个凸二次规划问题嘛，还不好解？等等，哥们说现有算法比较慢，所以我绝对不能按照常规思路去思考，要另辟蹊径。

蹊径啊蹊径，你在哪里呢？

我冥思苦想好几天，都没有什么好办法，哎！看来扬名立万的事儿要泡汤了。放下书，我决定去湖边（注：是瓦尔登湖不？）散散心，我已经在小黑屋关得太久了。

010、得来全不费工夫

正午时分，一丝风也没有，湖边零零散散的小情侣在呢喃私语，只有苦逼的我单身一个，我坐在湖边的一块大石上，平静的湖面映出我胡子拉碴憔悴的脸，我心里苦笑：“湖想必是可怜我，映出个对影陪我。”“对影？？？！！！”我心头一道亮光闪过，犹如干裂的土地听到第一声惊雷！我突然有了新的思路！

我疯狂地跑回屋里，身后是一对对受惊的小情侣怨恨的眼神。

我开始整理自己的思绪：

这个问题如果作为单纯的凸二次规划问题来看，很难有什么新的办法，毕竟凸二次规划已经被研究得透透了。但它的特殊之处在于：它是另一个问题的对偶问题，还满足KKT条件，怎么充分利用这个特殊性呢？

我随机找一个α=（α1，α2，...，αN）。假设它就是最优解，就可以用KKT条件来计算出原问题的最优解（w,b），就是这个样子：

w.PNG

b.PNG

进而可以得到分离超平面：

CodeCogsEqn.gif

按照SVM的理论，如果这个g(x)是最优的分离超平面，就有：

kkt.PNG

姑且称这个叫g(x)目标条件吧。
根据已有的理论，上面的推导过程是可逆的。也就是说，只要我能找到一个α，它除了满足对偶问题的两个初始限制条件：

3.PNG

由它求出的分离超平面g(x)还能满足g(x)目标条件，那么这个α就是对偶问题的最优解！！！

至此，我的思路已经确定了：首先，初始化一个α，让它满足对偶问题的两个初始限制条件，然后不断优化它，使得由它确定的分离超平面满足g(x)目标条件，在优化的过程中始终确保它满足初始限制条件，这样就可以找到最优解。

我不禁感到洋洋得意了，哥们我没有按照传统思路，想着怎么去让目标函数达到最小，而是想着怎么让α满足g(x)目标条件，牛X！我真他妈牛X！哈哈！！

011、中流击水停不住

具体怎么优化α呢？经过思考，我发现必须遵循如下两个基本原则：

每次优化时，必须同时优化α的两个分量，因为只优化一个分量的话，新的α就不再满足初始限制条件中的等式条件了。
每次优化的两个分量应当是违反g(x)目标条件比较多的。就是说，本来应当是大于等于1的，越是小于1违反g(x)目标条件就越多，这样一来，选择优化的两个分量时，就有了基本的标准。

好，我先选择第一个分量吧，α的分量中有等于0的，有等于C的，还有大于0小于C的，直觉告诉我，先从大于0小于C的分量中选择是明智的，如果没有找到可优化的分量时，再从其他两类分量中挑选。

现在，我选了一个分量，就叫它α1吧，这里的1表示它是我选择的第一个要优化的分量，可不是α的第1个分量。

为啥我不直接选两个分量呢？

我当时是这么想的，选择的两个分量除了要满足违反g(x)目标条件比较多外，还有一个重要的考量，就是经过一次优化后，两个分量要有尽可能多的改变，这样才能用尽可能少的迭代优化次数让它们达到g(x)目标条件，既然α1是按照违反g(x)目标条件比较多来挑选的，我希望选择α2时，能够按照优化后让α1、α2有尽可能多的改变来选。

你可能会想，说的怪好听的，倒要看你怎么选α2？

经过我一番潜心思考，我还真找到一个选α2的标准！！

我为每一个分量算出一个指标E，它是这样的：

E.PNG

我发现，当|E1-E2|越大时，优化后的α1、α2改变越大。所以，如果E1是正的，那么E2越负越好，如果E1是负的，那么E2越正越好。这样，我就能选到我的α2啦。

啥，你问这是为什么？

这个回头再说，现在要开始优化我的α1、α2啦。

100、无限风光在险峰

怎么优化α1、α2可以确保优化后，它们对应的样本能够满足g(x)目标条件或者违反g(x)目标条件的程度变轻呢？我这人不贪心，只要优化后是在朝着好的方向发展就可以。

本以为峰回路转，谁知道峰回之后是他妈一座更陡峭的山峰！我心一横，你就是90度的山峰，哥们我也要登它一登！！

在沉思中，我的眼睛不经意地瞟见了对偶问题：

2.PNG

灵光一闪，计上心来！

虽然我不知道怎样优化α1、α2，让它们对应的样本违反g(x)目标条件变轻，但是我可以让它们优化后目标函数的值变小啊！使目标函数变小，肯定是朝着正确的方向优化！也就肯定是朝着使违反g(x)目标条件变轻的方向优化，二者是一致的啊！！

我真是太聪明了！

此时，将α1、α2看做变量，其他分量看做常数，对偶问题就是一个超级简单的二次函数优化问题：

10.png

其中：

11.png

12.png

至此，这个问题已经变得超级简单了！

举例来说明一下，假设y1和y2都等于1，那么第一个限制条件就变成了

13.png

首先，将α1=K-α2代入目标函数，这时目标函数变成了关于α2的一元函数，对α2求导并令导数为0可以求出α2_new。

然后，观察限制条件，第一个条件α1=K-α2相当于
0≦K-α2≦C
进而求得：
K-C≦α2≦K，再加上原有的限制
0≦α2≦C，可得
max（K-C，0）≦α2≦min（K，C）

如果α2_new就在这个限制范围内，OK！求出α1_new，完成一轮迭代。如果α2_new不在这个限制范围内，进行截断，得到新的α2_new_new,据此求得α1_new_new，此轮迭代照样结束！！

至此，我终于找到了一个新的求解SVM对偶问题的方法，在SVM这块土地上，种上了一棵自己的树！扬名立万也就是水到渠成啦！

用讲故事的办法帮你理解SMO算法
SVM通常用对偶问题来求解，这样的好处有两个：1、变量只有N个（N为训练集中的样本个数），原始问题中的变量数量与样...
机器学习之SMO算法
SMO算法什么是SMO算法 SMO(Sequential Minmal Optimization)序列最小化算法...
SMO算法
SMO算法
SVM（支持向量机）笔记-SMO算法、核函数，代码实现
SMO算法 SMO表示序列最小优化（Sequential Minimal Optimization），是将大优化问...
SMO算法实现
这里根据SMO算法原论文中的伪代码实现了SMO算法。算法和数据已经上传到了git。伪代码 python实现分类...
12 SVM - SMO - 初始β变量的选择、总结
11 SVM - 序列最小优化算法 SMO 十五、初始β变量的选择回顾: 可以发现SMO算法中，是选择两个合适...
启发式算法
今天看李航博士《统计学习方法》中SVM的学习算法SMO（序列最小最优化算法）中，看到说SMO是一种启发式算法，然后...
SMO 算法
[未完成]我们要求解如下问题可以考虑固定住其余变量，只优化和，即将问题转化为上式中去掉了不含和的项，为了表示方便，...
SVM 由浅入深的尝试（四）软间隔最大化的理解
这部分涉及到的内容会帮助理解SMO算法概念介绍软间隔(soft margin)和硬间隔(hard margin...
支持向量机(SVM)的SMO算法实现
svmMLiA.py，为没有用启发式算法，随机选择alphas[i],alphas[j]的SMO算法的实现。svm...

网友评论

2989697c2127:博主，我随机找一个α=（α1，α2，...，αN）。假设它就是最优解，就可以用KKT条件来计算出原问题的最优解（w,b），就是这个样子：
这个地方，你给出的 b 的表达式不对吧。怎么能根据 y= wx+b 来算了， SVM里的 y 只是标签而已。
c9a36db6d211:他这个y指的是支持向量的，并非所有的，因为支持向量的kkt里yi*f（xi）=1
2b522c704c02:gx目标函数为什么和我想的不一样。。。
2b522c704c02:α等于0不应该是在边界上吗，为什么是边界外大于等于1呢。。。楼主能告诉我吗
dalalaa:你真是个人才
a045ab100cd1:很容易接受，每一次拜读总能有不一样的感受，谢谢
d9171917c3ad:这里的k是 α1old*y1+α2old*y2吗
d9171917c3ad:楼主你好，你在下面求出来了max（K-C，0）≦α2≦min（K，C）
那么这里K是未知的啊，说到底还是计算不出来α2的取值范围啊
chenymcan:其实我就是不知道变量该如何选取
chenymcan:没能看懂。。。
chenymcan:@milter 嗯，谢谢
工程师milter:@chenymcan 建议配合李航书食用，风味更佳
40a1d13f9d84:每读一遍都有新收获，赞楼主！感谢！
c40b26999645:很棒，看完后，感觉更清楚了，感谢😀
工程师milter: @啦啦啦大佬 😀
2db533b64f28:😊😁
工程师milter: @猩猩点指兵兵 😏
冬瓜_HY:大神，请教下，SMO算法的解释里有这么一句:

".......遍历非边界样本集(0<αi<C)中违反KKT的αi作为第一个变量......"

当0<αi<C时，由ai+ui = c 得 ui>0，再由ui*δ = 0 的，δ = 0，则这个样本应该在最大间隔上，也就是边界上才对啊，怎么却说是非分离边界上的样本……
工程师milter:@冬瓜_分析师我是这么理解的，alpha大于0小于c时，对应的样本要满足的kkt条件会更苛刻，也就更容易违反这个条件。
冬瓜_HY: @milter 谢谢回复。那您文中提到
"直觉告诉我，先从大于0小于C的分量中选择是明智的"
为什么这样选择呢？我就是这个搞不懂。
工程师milter:@冬瓜_分析师你的理解是对的
2453cf172ab4:能自己理解再换一种方式表达出来，是一种非常高效的方式。我一直在这样尝试
工程师milter:@zhiyan_d4f1 是的
b545e8f634a4:@milter 那我请问下，因为样本里有N个ai变量嘛，在计算完a1a2这一组后是不是继续在剩余的ai变量里再优化其他ai直到所有的ai都被优化完为止呢？
工程师milter: @dantezhao 期待！

用讲故事的办法帮你理解SMO算法

001、初生牛犊不怕虎

010、得来全不费工夫

011、中流击水停不住

100、无限风光在险峰

相关文章