支持向量机SVM-补充完整SMO算法应用(二)-Python

支持向量机SVM-补充完整SMO算法应用(二)-Python

作者: keepStriving | 来源:发表于2017-03-28 10:10 被阅读1484次

支持向量机SVM-补充完整SMO算法应用(二)-Python
7 支持向量机SMO算法（python代码）
支持向量机|SMO算法实现
支持向量机（五）——SMO算法
支持向量机(Support Vector Machines-SV
SVM-支持向量机
统计学习方法-7 支持向量机-3
SVM
《机器学习实战》读书笔记6
支持向量机(SVM)的SMO算法实现

大家好，上一篇支持向量机(Support Vector Machines-SVM)算法笔记(一)-Python主要提到了支持向量机的算法原理、简单SMO算法的实现等，今天接着上一篇提到的内容，主要侧重于：完整SMO算法的实现、编程遇到的小问题等。核函数的变成实现将在下一阶段深入学习中来研究

再次申明：本文的理论知识来自Peter Harrington的《机器学习实战》和李航的《统计学习方法》，非常感谢这些优秀人物和优秀书籍

1、完整SMO算法

上一篇支持向量机(Support Vector Machines-SVM)算法笔记(一)-Python最后提到的简单SMO算法，在100个数据集、2个特征值的处理问题中，花了6秒30左右，那么当数据集在万级以上，这个算法的效率估计可以回到解放前了。之所以这个算法在大量数据集上效果这么差，很大一部分原因出在alpha参数的选择。

SMO算法是通过一个外循环来选择第一个alpha值，并且其选择过程会在两种方式之间进行交替：一种方式是在所有的数据集进行单遍扫描，另一种方式则是在非边界alpha中实现单遍扫描。而所谓非边界alpha指的是那些不等于边界0或C的alpha值。对整个数据集的容易，而在实现非边界alpha值的扫描时，首先需要建立这些alpha值的列表，然后再对这个表进行遍历。同时，该步骤会跳过那些已知的不会改变的alpha值。在选择第一个alpha值后，算法会通过一个内循环来选择第二个alpha值。在优化过程中，会通过最大化步长的方式来获得第二个alpha值。在上一篇中的简单SMO算法的实现中，我们在选择j之后计算错误率Ej。但是，在完整版的SMO算法里，将建立一个全局的缓存用于保存误差值，并从中选择使得步长或者Ei-Ej最大的alpha值。

完整版SMO算法的相关代码如下：

1）准备数据

图1 SMO算法-准备数据

2）建立一个类存放基本数据以及alphas的缓存

图2 SMO算法-建立储存数据的对象

3）建立计算错误率的函数

图3 SMO算法-计算错误率的函数

4）在选择第2个alphas参数时（也就是进行SMO的内循环时），不再是随机选择，而是选择最长步长的那个（就是选择|E_i-Ej|最大的）

图4 SMO算法-选择第2个alphas参数

5）更新错误率Ek

图5 SMO算法-更新错误率

6）更新b并且返回两个alpha参数是否改变的情况

图6

7）完整版SMO算法

图7

8）查看完整的SMO算法的效果怎么样

设置不同的最大迭代次数，发现迭代次数的增加，支持向量的数量会增加，但是到某些数值后，将不再增加，比如迭代次数200和迭代次数400时基本不变了，见图8(红色点为支持向量)

图8

9）基于支持向量来进行样本分类-求解权重

先求解超平面的权重参数w，计算公式主要是依据上一篇支持向量机(Support Vector Machines-SVM)算法笔记(一)-Python第11张图中的w计算方法。代码如下：

图9

10）最终SMO分类

图10

图中10中返回正数，则分类标记为+1；图10中返回负数，则标记为-1

好哒，SMO函数基本告一段落，接下来主要是分享一些Python编程问题。关于numpy等Python科学库，建议参考One document to learn numerics, science, and data with Python

1、对比numpy中的array与mat

1)np.array([...])和np.array([[...]])是不一样的

图11

2）np.array创建的数组，获取元素的方法（[a,b],a表示行，b表示列，当然在二维范围内）

图12

3）np.array的siblings包括：chararray，maskedarray，matrix

chararray

图13

maskedarray：这个函数主要是针对数组中有丢失数据或者无效的数据，比如有时候在计算中，不想让某些异常点参与运算，可以让他遮罩处理，比如下面的-99

图14

matrix(可以简写为np.mat)：这是为了计算方便，单独作为array的子模块，只针对二维数组

图15

在图15中，提到的matrix数组的“*”表示数组相乘。而np.array数组‘*’表示两个数组的相同位置上的数字做乘法，np.dot(a,b)表示数组a和b相乘

numpy中，matrix与array的对比：

1)np.matrix([1,2,3])与np.array([[1,2,3]])一样的效果，但是不同于np.array([1,2,3])：

图16

2）数乘：np.matrix与np.array没有差异

图17

3）向量相乘，matrix矩阵的“*”相当于np.dot，而np.multiply与np.array矩阵的‘*’是一样的效果-数组相同位置上的数相乘

图18

4）向量除法

图19

5）矩阵相除

图20

在进行矩阵除法的过程中，我发现以下问题：

（1）np.linalg.inv(a)是求解a的逆矩阵，但是，因为精度的问题，矩阵a和他的逆矩阵乘起来，不一定为矩阵理论中的单位1矩阵I

（2）用ones矩阵除以任何一个矩阵时，发现结果不是另一个矩阵的逆矩阵，而是相同位置上，原来数组的取值均被1相除，有意思

（3）其余矩阵相除满足一般矩阵理论的除法。

一般明确知道是二维数组时，常用matrix构建，因为其计算与矩阵理论以及matlab里计算方法更加贴切。但是，高维数组则只能用np.array()来处理了。

基本就是这些，希望对大家有所帮助，同请大牛知道，谢谢~~

相关文章

支持向量机SVM-补充完整SMO算法应用(二)-Python
大家好，上一篇支持向量机(Support Vector Machines-SVM)算法笔记(一)-Python主要...
7 支持向量机SMO算法（python代码）
原理参考：https://zhuanlan.zhihu.com/p/77750026[https://zhuanl...
支持向量机|SMO算法实现
01 起在统计学习方法|SVM这篇文章中，我们学习了支持向量机的原理和理论上的算法实现，我们一起回忆一下，支持向...
支持向量机（五）——SMO算法
〇、说明支持向量机(Support Vector Machine,SVM)是监督学习中非常经典的算法。笔者主要参...
支持向量机(Support Vector Machines-SV
本文主要是学习支持向量机的算法原理，并且用Python来实现相关算法。内容包括：SVM概述、线性可分支持向量机、线...
SVM-支持向量机
SVM就是寻找分割线最佳分割线——最大化了到最近点的距离最大化了于左右两分类最近点的距离——间隔最大化了于左右两分...
统计学习方法-7 支持向量机-3
3 非线性支持向量机、SMO算法3.1 目标函数继续变形理论上，KKT条件可以解出SVM，但是当训练集容量很大时，...
SVM
支持向量机本节将依SMO算法训练线性SVM, 核方法的使用可以很方便的进行扩展. 下面的Point的类中的: 下...
《机器学习实战》读书笔记6
支持向量机算法概述支持向量机（Support Vector Machines，SVM）这个算法的名字很抽象，简单...
支持向量机(SVM)的SMO算法实现
svmMLiA.py，为没有用启发式算法，随机选择alphas[i],alphas[j]的SMO算法的实现。svm...

网友评论

本文标题：支持向量机SVM-补充完整SMO算法应用(二)-Python

本文链接：https://www.haomeiwen.com/subject/auulottx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|支持向量机SVM-补充完整SMO算法应用(二)-Python|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！