支持向量机(SVM) 浅析

作者: 阿基米敬 | 来源:发表于2018-05-04 15:08 被阅读19次
    SVM介绍

    SVM支持向量机(英文全称:support vector machine)是一个分类算法,通过找到一个分类平面将数据分隔在平面两侧从而达到分类的目的
    SVM算法是有监督的数据挖掘算法,是一种二分类算法(经过改造后也可以用于多分类,但比较复杂), 在非线性分类方面有明显优势;通常SVM用于二元分类问题,对于多元分类通常将其分解为多个二元分类问题,再进行分类

    SVM应用场景

    SVM(支持向量机)主要用于分类问题,主要的应用场景有字符识别、面部识别、行人检测、文本分类等领域,在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类(异常值检测)以及回归分析。

    SVM算法思想:

    它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的。考虑到数据中可能存在噪音,还引入了松弛变量。
    一个普通的SVM就是一条直线罢了,用来完美划分linearly separable的两类。但这又不是一条普通的直线,这是无数条可以分类的直线当中最完美的,因为它恰好在两个类的中间,距离两个类的点都一样远。而所 谓的Support vector就是这些离分界线最近的『点』。如果去掉这些点,直线多半是要改变位置的
    如下图所示, 直线表示的是训练出的一个分类平面, 将数据有效的分隔开。

    说个直观的解释,比如现在有苹果和香蕉散乱地放在桌子上,如何一刀砍下,刀的一侧只有苹果,另一边只有香蕉呢?(二分类的思想)
    这时候小明放学回来了,小明想吃苹果不想吃香蕉,于是乎小明猛拍桌子,苹果和香蕉弹向空中,弹在空中的某个时刻,苹果在一个区域、梨在另一个区域,这时候小明在它们之间迅速划了一刀,任务完成!苹果和香蕉就分开了



    大概就是这个流程,数学原理有点复杂(至今不太懂),只是概略地讲一下,听说SVM的原理写细了可以写本书(有出版的书)

    SVM模型训练

    模型训练成功后,根据support vector(一组向量)对后续向量进行分类;
    输入输出:模型输入的是一堆向量(一般是-1~1之间的浮点数),以及这些向量所属的分类label(一般用-1,1表示);模型训练是要调整的内容:核函数、核函数的参数、松弛变量等,取决于算法实现的情况

    使用sklearn 实现支持向量机(SVM)

    (1)简单的预测
    测试数据我们给出三个点:(2,0)(1,1)(2,3),前两个点我们分为一类,第三个点事另一类可以记为(0,0,1)。看代码

    #coding:utf8
    #导入svm的库
    from sklearn import svm
    x = [[2, 0], [1, 1], [2, 3]]
    y = [0, 0, 1]  #对应x的分类标记
    clf = svm.SVC(kernel= 'linear') #线性核函数
    clf.fit(x, y)
    
    print (clf)
    print (clf.support_vectors_ ) #支持向量
    print (clf.support_ ) #支持向量是哪几个(下标)
    print (clf.n_support_)    #每一类中有几个支持向量
    '''
    print (clf.predict([0, 1]))   #测试数据
    ValueError: Expected 2D array, got 1D array instead:
    array=[0. 1.].
    Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
    '''
    print (clf.predict([[0, 1]]))   #测试数据
    
    print("########################################\n")
    

    输出结果

    结果输出:
    SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
      decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
      max_iter=-1, probability=False, random_state=None, shrinking=True,
      tol=0.001, verbose=False)
    [[1. 1.]
     [2. 3.]]
    [1 2]
    [1 1]
    [0]
    

    (2)复杂一些的预测
    下面我们做一个复杂点的例子,我们来随机生成两类点,进行SVM的建模然后我们在画布中画出这个模型图。
    训练集:随机生成正太分布的点,20个小于0的 20个大于0的数。
    代码如下:

    import numpy as np
    import pylab as pl
    
    #生成随机点数据集
    np.random.seed(0) #固定随机值
    x = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
    y = [0] *20 +[1] * 20
    
    print(x)
    print(y)
    
    clf2 = svm.SVC(kernel='linear')
    clf2.fit(x, y)
    print(clf2.support_)
    至此为止,模型已经建完,开始绘图
    
    #画出散点图
    #画出支持向量的点,参数:x,y,大小
    pl.scatter(clf2.support_vectors_[:,0],clf2.support_vectors_[:,1],s=80)
    #画出全部的点,参数:x,y,颜色,colormap,形状
    pl.scatter(x[:,0],x[:,1],c=y,cmap=pl.cm.Paired,marker='o')
    pl.axis('tight')
    #pl.savefig("dd") 保存绘图
    pl.show()
    
    结果输出
    [[-0.23594765 -1.59984279]
     [-1.02126202  0.2408932 ]
     [-0.13244201 -2.97727788]
     [-1.04991158 -2.15135721]
     [-2.10321885 -1.5894015 ]
     [-1.85595643 -0.54572649]
     [-1.23896227 -1.87832498]
     [-1.55613677 -1.66632567]
     [-0.50592093 -2.20515826]
     [-1.6869323  -2.85409574]
     [-4.55298982 -1.3463814 ]
     [-1.1355638  -2.74216502]
     [ 0.26975462 -3.45436567]
     [-1.95424148 -2.18718385]
     [-0.46722079 -0.53064123]
     [-1.84505257 -1.62183748]
     [-2.88778575 -3.98079647]
     [-2.34791215 -1.84365103]
     [-0.76970932 -0.79762015]
     [-2.38732682 -2.30230275]
     [ 0.95144703  0.57998206]
     [ 0.29372981  3.9507754 ]
     [ 1.49034782  1.5619257 ]
     [ 0.74720464  2.77749036]
     [ 0.38610215  1.78725972]
     [ 1.10453344  2.3869025 ]
     [ 1.48919486  0.81936782]
     [ 1.97181777  2.42833187]
     [ 2.06651722  2.3024719 ]
     [ 1.36567791  1.63725883]
     [ 1.32753955  1.64044684]
     [ 1.18685372  0.2737174 ]
     [ 2.17742614  1.59821906]
     [ 0.36980165  2.46278226]
     [ 1.09270164  2.0519454 ]
     [ 2.72909056  2.12898291]
     [ 3.13940068  0.76517418]
     [ 2.40234164  1.31518991]
     [ 1.12920285  1.42115034]
     [ 1.68844747  2.05616534]]
    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
    [ 1 14 20]
    

    暂时先说到这里,如有理解的不正确的地方,欢迎批评指正
    end

    相关文章

      网友评论

        本文标题:支持向量机(SVM) 浅析

        本文链接:https://www.haomeiwen.com/subject/mvmdrftx.html