机器学习之SVM(简单理解)

作者: swensun | 来源:发表于2018-03-02 20:55 被阅读306次

机器学习之SVM(简单理解)
机器学习之SVM
【机器学习】SVM理解及推导
机器学习SVM，小白也能看得懂 , 从理论到实践！！！
机器学习面试和答案(一)(自己)
降维算法二：LDA（Linear Discriminant An
机器学习笔记之—SVM
机器学习之SVM算法
简单理解SVM
凸优化导读与资料汇总

应该对现有流行并将继续流行下去的分类模型有深刻的了解。随机森林和支持向量机(svm)
上篇文章简单介绍了随机森林，这篇文章简单介绍一下支持向量机(svm)。
偏重应用，轻数学解释推导。

线性分类器

一个非常简单的分类问题。

image.png
用一条直线，将两种颜色的点分开，如图所示(可以有无数条这样的直线)。
假如将黑点记作-1，白点+1。直线f(x) = wx+b。这里的x， w是向量，其实也可以写成这种形式。f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0)，当向量x的维度是2的时候，f(x)表示二维空间中的一条直线，当x的维度等于3的时候，f(x)表示3维空间中的一个平面；当x的维度n大于3的时候，表示的是n维空间中的n-1维超平面。
当有一个新的点需要预测分类的时候，就用sgn(f(x))。sgn表示符号函数，当f(x) > 0, 属于黑点；否则属于白点。

但是，对于无数条可能的直线，哪条效果是最好的？

image.png
直观感受，让这条直线到给定样本中最近的点距离最远，如下图的两种分法，2效果好。

image.png
从直观上来说，分割的间隙越大越好，把两个类别的点分得越开越好。
在SVM中，成为Maximum Marginal，是svm的一个理论基础之一。
选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲，就使的置信度最小的点置信度最大。
上图中被红色和蓝色的线圈出来的点就是所谓的支持向量(support vector)。

image.png

image.png
上图就是对间隙的一个描述。Classifier Boundary就是fx，红蓝线就是support vertor 所在面。红色，蓝色线之间的间隙就是要最大化的分类间的间隙。
直接给出M的公式：

image.png
另外支持向量位于wx+b = 1和wx+b=-1的直线上。在前面乘上一个该点所属的类别(1或者-1)，就可以得到支持向量的表达式 y(wx+b) =1，简单的将支持向量表示出来。
当确定支持向量后，分割函数也随之确定，两个问题等价。得到支持向量还有一个作用，让支持向量后面的那些点不参与计算。