机器学习（10）——线性SVM

作者: 飘涯 | 来源:发表于2018-03-26 12:49 被阅读101次

机器学习（10）——线性SVM
机器学习笔记02-支持向量机SVM（上）
机器学习入门（十六）：SVM——线性 SVM，间隔由硬到软
SVM支持向量机（一）
机器学习技法---线性SVM
Machine Learning: 十大机器学习算法
Machine Learning: 十大机器学习算法
第五章支持向量机（分类）
机器学习算法开始页
通俗易懂的支持向量机SVM

支持向量机 Support vecor machine,SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的分类应用,并且也能够直接将SVM应用于回归应用中,同时通过OvR或者OVO的方式我们也可以将SWM应用在多元分类领域中。在不考虑集成学习算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的。

算法思想

在感知器模型中,算法是在数据中找出一个划分超平面,让尽可能多的数据分布在这个平面的两侧,从而达到分类的效果,但是在实际数据中这个符合我们要求的超平面是可能存在多个的。如下图所示：

在感知器模型中,我们可以找到多个可以分类的超平面讲数据分开,并且优化时希望所有的点都离超平面尽可能的远,但是实际上离超平面足够远的点基本上都是被正确分类的,所以这个是没有意义的;反而比较关心那些离超平面很近的点,这些点比较容易分错。所以说我们只要让离超平面比较近的点尽可能的远离这个超平面,那么我们的模型分类效果应该就会比较不错喽。SⅥM其实就是这个思想。

举个例子简单介绍一下svm算法的几个基本概念，参考知乎作者简之的回答。他通过简单明了的故事讲述了各个概念的生动比喻，这里就不在这里累述了，有兴趣的可以参照网址：<u>https://www.zhihu.com/question/21094489。</u>
线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据。
线性不可分( Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据。
分割超平面( Separating Hyperplane):将数据集分割开来的直线/平面叫做分割超平面。
间隔( Margin):数据点到分割超平面的距离称为间隔。
支持向量( Support Vector):离分割超平面最近的那些点叫做支持向量。如下如：分别用红蓝标记的点就为支持向量点。