支持向量机（SVM）

作者: owolf | 来源:发表于2018-09-18 23:28 被阅读2次

【机器学习实战】第6章支持向量机（Support Vector
「数据分类」15支持向量机(SVM)及混淆矩阵
算法岗面试——机器学习总结
支持向量机&&聚类
机器学习——libSVM（一）
SVR（Support Vactor Regerssion）支持
18、SVM（支持向量机）
《机器学习实战》读书笔记6
SVM(支持向量机)的原理
支持向量机-QA

一、什么是支持向量机

支持向量机（support vector machine），故一般简称SVM，通俗来讲，它是一种二分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。SVM在很多诸如文本分类，图像分类，生物序列分析和生物数据挖掘，手写字符识别等领域有很多的应用。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。

假设给定一些分属于两类的2维点，这些点可以通过直线分割，我们要找到一条最优的分割线，如何来界定一个超平面是不是最优的呢?

如图：

在上面的图中，a和b都可以作为分类超平面，但最优超平面只有一个，最优分类平面使间隔最大化。那是不是某条直线比其他的更加合适呢? 我们可以凭直觉来定义一条评价直线好坏的标准:

距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度高，泛化性较差。因此我们的目标是找到一条直线（图中的最优超平面），离所有点的距离最远。由此， SVM算法的实质是找出一个能够将某个值最大化的超平面，这个值就是超平面离所有训练样本的最小距离。这个最小距离用SVM术语来说叫做间隔(margin) 。

二、什么是线性分类

描述：给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：

例如：现在有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线将这两类数据分开，这条直线就相当于一个超平面，超平面一边的数据点所对应的y全是-1 ，另一边所对应的y全是1。

三、函数间隔和几何间隔

我们令分类函数为：

当f(x) 等于0的时候，x便是位于超平面上的点，而f(x)大于0的点对应 y=1 的数据点，f(x)小于0的点对应y=-1的点，如下图所示：

一个点距离超平面的远近可以表示分类预测的确信或准确程度，如何确定这个超平面呢？从直观上而言，这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以，得寻找有着最大间隔的超平面。

补充知识点：点到平面的距离

四、间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面.。对线性可分的训练数据集而言，线性可分分离超平面有无穷多个(等价于感知机)，但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化。

间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

按照我们前面的分析，对一个数据点进行分类，当它的margin越大的时候，分类的confidence越大。对于一个包含n个点的数据集，我们可以很自然地定义它的margin为所有这n个点的margin值中最小的那个。于是，为了使得分类的confidence高，我们希望所选择的超平面hyper plane能够最大化这个margin值。让所选择的超平面能够最大化这个“间隔”值，这个间隔就是下图中的Gap的一半：

为什么用几何间隔求最大的分离超平面而不用函数间隔？

得出下面的线性可分支持向量机的学习算法————最大间隔法。

例题：

五、支持向量和间隔边界

六、用对偶算法求最优化解

我们构造了约束最优化问题，就是下面这个：

此外，由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。

补充知识点：拉格朗日乘子法学习

拉格朗日KKT条件

KKT条件介绍

拉格朗日对偶

通过给每一个约束条件加上一个拉格朗日乘子（Lagrange multiplier）α，定义拉格朗日函数（通过拉格朗日函数将约束条件融合到目标函数里去，从而只用一个函数表达式便能清楚的表达出我们的问题）：

求解这个式子的过程需要拉格朗日对偶性的相关知识。

线性可分支持向量机学习算法：

例题：

七、线性不可分的情况（软间隔）

接下来谈谈线性不可分的情况，因为线性可分这种假设实在是太有局限性了。下图就是一个典型的线性不可分的分类图，我们没有办法用一条直线去将其分成两个区域，每个区域只包含一种颜色的点。

要想在这种情况下的分类器，有两种方式，一种是用曲线去将其完全分开，曲线就是一种非线性的情况，跟之后将谈到的核函数有一定的关系：

另外一种还是用直线，不过不用去保证可分性，就是包容那些分错的情况，不过我们得加入惩罚函数，使得点分错的情况越合理越好。其实在很多时候，不是在训练的时候分类函数越完美越好，因为训练函数中有些数据本来就是噪声，可能就是在人工加上分类标签的时候加错了，如果我们在训练（学习）的时候把这些错误的点学习到了，那么模型在下次碰到这些错误情况的时候就难免出错了。这种学习的时候学到了“噪声”的过程就是一个过拟合（over-fitting），这在机器学习中是一个大忌。

我们可以为分错的点加上一点惩罚，对一个分错的点的惩罚函数就是这个点到其正确位置的距离：

对偶问题的推导：

如何求w和b

线性支持向量机学习算法：

b的解可以求符合条件的样本点上的平均值

支持向量：

八、核函数（Kernels）

对于线性不可分的情况，我们可以用核函数让空间从原本的线性空间变成一个更高维的空间，在这个高维的线性空间下，再用一个超平面进行划分。这儿举个例子，来理解一下如何利用空间的维度变得更高来帮助我们分类的：

上图是一个线性不可分的图，当我们把这两个类似于椭圆形的点映射到一个高维空间后，映射函数为：

用这个函数可以将上图的平面中的点映射到一个三维空间（z1,z2,z3)，并且对映射后的坐标加以旋转之后就可以得到一个线性可分的点集了。

形象说明：例如世界上本来没有两个完全一样的物体，对于所有的两个物体，我们可以通过增加维度来让他们最终有所区别，比如说两本书，从(颜色，内容)两个维度来说，可能是一样的，我们可以加上作者这个维度，是在不行我们还可以加入页码，可以加入拥有者，可以加入购买地点，可以加入笔记内容等等。当维度增加到无限维的时候，一定可以让任意的两个物体可分了。

核函数定义：

核技巧在支持向量机中的应用：

常用核函数：

非线性支持向量机学习算法：

九、SMO算法

支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以用于这一一问题的求解。但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。所以，如何高效地实现支持向量机学习就成为一一个重要的问题。目前人们已提出许多快速实现算法.本节讲述其中的序列最小最优化(sequential minimal optimization, SMO)算法。

上述问题是要求解N个参数(α1,α2,α3,...,αN)，其他参数均为已知，序列最小最优化算法(SMO)可以高效的求解上述SVM问题，它把原始求解N个参数二次规划问题分解成很多个子二次规划问题分别求解，每个子问题只需要求解2个参数，方法类似于坐标上升，节省时间成本和降低了内存需求。每次启发式选择两个变量进行优化，不断循环，直到达到函数最优值。

整个SMO算法包括两部分，求解两个变量的二次规划问题和选择这两个变量的启发式方法。

1、两个变量二次规划的求解方法：

可行域考虑了，接下来考虑二次项系数：

上面求得的(α1)new和(α2)new是在η>0的情况下求得的：

当时为了推导公式我们直接默认它是大于0了，现在我们需要重新审视这一项（η）。这一项是原来关于的二次项的系数。我们可以分下面三种情况讨论：

（1）当η>0时：这个二次函数开口向上，所以要求这个二次函数的最小值，如果说极值点不在计算出的可行域的范围内，就要根据这个极值点和可行域边界值的关系来得到取最小值的地方：

①如果这个极值点在可行域左边，那么我们可以得到这个可行域内二次函数一定在单增，所以此时L应该是那个取最小值的地方。就如大括号的第三种情况。

②如果这个极值点在可行域右边，那么此时可行域内一定单减，所以此时H就是那个取最小值的地方，就是大括号里的第一种情况。

（2）当η=0时：这个二次函数就变成了一个一次函数，那么不管这个一次函数的单调性怎样，最小值一定是在边界处取到。所以到时候计算可行域的两个边界的值，看哪个小就用哪个。

（3）当η<0时:这个二次函数开口向下，那么此时怎么得到取最小值的点呢？很容易就能想到：最小值也是在可行域的边界处取到。很容易理解，此时开口向下，当极值点在区间内时，最小值只能在端点处取，因为极值点处是最大的。而当极值点在区间外时，区间内一定是单调的，此时最小值也只能在端点处取。通过计算比较边界处的目标函数值，哪个小取哪个。

通过以上判断求出(α2)new以后，再根据公式求出(α1)new，然后带入目标函数（1）中。即如下过程：