基于sklearn的线性支持向量机分类器

作者: 月见樽 | 来源:发表于2017-11-11 17:03 被阅读103次

第五章数据分类算法——基于支持向量机的分类器
基于sklearn的线性支持向量机分类器
多分类
2.1.1.3朴素贝叶斯
支持向量机2020-03-18
SVM支持向量机（三）
支持向量机Support Vector Machine
支持向量机—从推导到python手写
机器学习笔记02-支持向量机SVM（上）
《机器学习及实践——从零开始通往KAGGLE竞赛之路》读书笔记四

原理

分类器

机器学习的分类器，均可以看成一个或一组超平面，将label不同的数据点在数据空间中分开。对于线性可分问题，属于相同label的数据点在数据空间中可以看成是“类聚”的，即具有相同label的点会聚在一起。这样，分类效果最好的超平面应该满足：对于其分割的两种label，距离最近的两个不同label的数据点距离超平面的距离都足够大，即超平面离两个类聚的空间都足够远。

支持向量

对于支持向量机来说，最关心的并不是所有数据的分布情况，而是所谓类聚空间边界的相互位置，这些边界上的数据点，即两个空间间隔最小的两个数据点被称为支持向量，支持向量机分类器就是针对这些点优化的分类器

核函数

以上的所有说明都是针对线性可分问题的，当处理线性不可分问题的时候，线性分类器就无能为力了。那么需要使用一个叫核函数的东西，将线性不可分问题变成线性可分问题。核函数是一种对应关系，可以将数据映射到更高的维度上去，即认为：在当前维度不可分的问题，到达更高维度的时候有可能变的线性可分。在支持向量机的范畴中，核函数是一种先验，即人工在训练前就指定的。在当前的神经网络算法中，可以将输出层看成线性分类器，将隐藏层看成核函数，这样的视角下神经网络中的核函数是通过数据训练出来的

代码实现

载入手写体数据集

from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(type(digits),type(digits.data))

(1797, 64)
<class 'sklearn.utils.Bunch'> <class 'numpy.ndarray'>

使用sklearn.datasets中的load_digits()函数,可以载入8*8的手写数据集

import matplotlib.pyplot as plt
dis = digits.data[:9,:]
dis = dis.reshape([-1,8,8])
for i in range(9):
    plt.subplot(331 + i)
    plt.imshow(dis[i])
plt.show()
print(digits.target[:9])

digits_num.png

[0 1 2 3 4 5 6 7 8]

上面是使用matplotlib打印出的前9个数据的样子，可以发现已经非常不清晰了（顺便提一句MNIST比这个不知道高到那里去了，上神经网络还不是随便98%的准确率）

数据预处理

数据分割：75%训练-25%预测

from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(digits.data,digits.target,test_size=0.25,random_state=1)
print(x_train.shape,y_train.shape)

(1347, 64) (1347,)

数据标准化

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

调用支持向量机分类

from sklearn.svm import LinearSVC
lsvc = LinearSVC()
lsvc.fit(x_train,y_train)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

模型评估

使用自带评估工具

print(lsvc.score(x_test,y_test))

0.962222222222

使用sklearn专用工具

from sklearn.metrics import classification_report
y_pre = lsvc.predict(x_test)
print(classification_report(y_test,y_pre,target_names=digits.target_names.astype(str)))

             precision    recall  f1-score   support

          0       0.98      0.98      0.98        53
          1       0.98      0.98      0.98        42
          2       1.00      1.00      1.00        41
          3       0.98      0.92      0.95        52
          4       0.94      1.00      0.97        47
          5       0.92      0.92      0.92        39
          6       1.00      1.00      1.00        43
          7       1.00      0.94      0.97        48
          8       0.92      0.95      0.93        37
          9       0.90      0.94      0.92        48

avg / total       0.96      0.96      0.96       450

tips：可以发现有意思的一点：数字2和6是机器看来与其他数字最不同的

网友评论

本文标题：基于sklearn的线性支持向量机分类器

本文链接：https://www.haomeiwen.com/subject/iwxgmxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于sklearn的线性支持向量机分类器

原理

分类器

支持向量

核函数

代码实现

载入手写体数据集

数据预处理

数据分割：75%训练-25%预测

数据标准化

调用支持向量机分类

模型评估

使用自带评估工具

使用sklearn专用工具

相关文章

第五章数据分类算法——基于支持向量机的分类器

基于sklearn的线性支持向量机分类器

多分类

2.1.1.3朴素贝叶斯

支持向量机2020-03-18

SVM支持向量机（三）

支持向量机Support Vector Machine

支持向量机—从推导到python手写

机器学习笔记02-支持向量机SVM（上）

《机器学习及实践——从零开始通往KAGGLE竞赛之路》读书笔记四

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据分析

机器学习和人工智能入门

Python语言与信息数据获取和机器学习

机器学习