支持向量机分类实战

作者: 阿里云云栖号 | 来源:发表于2017-11-27 12:50 被阅读177次

多分类
支持向量机分类实战
支持向量机分类实战
支持向量机（SVM）入门理解与推导
支持向量机
支持向量机(分类问题公式及python实现)
第五章数据分类算法——基于支持向量机的分类器
支持向量机—从推导到python手写
机器学习实战：基于Scikit-Learn和TensorFlow
支持向量机

摘要：对于机器学习者来说，SVM是非常重要的监督式学习模型之一，本文通过几个小例子，通俗的介绍了SVM的基本思想和关键信息，值得尝试。

支持向量机（SVM）是一个非常强大和灵活的机器学习模型，能够执行线性或非线性的分类，回归，甚至异常值检测。它是机器学习中最受欢迎的有监督学习模式之一，任何对ML感兴趣的人都应该对其有所了解，并且能够掌握其使用方法。SVM特别适用于复杂但数据集属于中小型的分类。

SVM主要的思想可以概括为两点：

1ï¼�它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。

2ï¼�它基于结构风险最小化理论之上在特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某种概率满足一定上界。

在这篇文章中，我们将探讨如何用Python实现分类的SVM模型。

线性SVM

假设我们有两类数据，我们要使用SVM进行分类，如图所示：

这两个类数据可以用直线（线性分离）轻松分离。左图显示了2个可能的线性分类器的决策边界。SVM模型其实就是关于生成正确的分界线（在较高维度称为Hyperplane）。在左图中，我们可以看到数据分类非常好，尽管红线对数据进行了分类，但在新的数据实例中可能无法很好地执行。我们可以画出许多对这些数据进行分类的线，但是在所有这些线中，蓝线可以分隔最多的数据。如果将相同的蓝线显示在右图，这条线（超平面）不仅分离了两个类，而且还保持了最远的相近的训练实例的距离。我们称之为大间距分类器（Large Margin Classification）。

这个最好的决策边界是由位于分界线边缘的实例确定（或“支持”）的。这些实例称为支持向量两条线边缘之间的距离称为边距。

软间距分类器（soft Margin Classification）

如果我们严格把我们所用的例子放在这两条虚线上（如下图），并且在正确的一边，这就是所谓的硬间距分类，硬间距分类有2个问题。

1）只有数据线性分离才有效。

2）对异常值非常敏感。

在上面的数据类中，有一个蓝色的异常值。如果我们对该数据集应用硬间距分类器，我们将获得左边图所示的小边距的决策边界。为了避免这些问题，最好使用更灵活的模型。目的是在保持两条线之间距离尽可能大的情况下找到一个良好的平衡，并限制边际违规（即，最终在两条线中间的距离甚至错误的一面的情况），这称为软间距分类器。如果我们对该数据集应用软间距分类，我们将获得比硬间距分类更大的确定边界，这在右图中显示。

非线性SVM

虽然线性SVM分类器是有效的，并且在许多情况下令人惊奇地工作，但是许多数据集是不能接近线性分离。处理非线性数据集的一个简单方法是添加更多的特征，例如多项式特征，有时这可以导致线性可分离的数据集。通过生成多项式特征，我们将具有一个新特征矩阵，该特征矩阵由具有小于或等于指定度数的特征的所有多项式组合组成。以下图像是使用多项式特征进行SVM的示例。

核心技巧

内核是计算两个向量X，Y的点积的一种方法和在某些（可能非常高的维度）特征空间中，这就是为什么内核函数有时被称为“广义点积分”。假设我们有一个映射：φ:Rn→Rm，这使我们的矢量在Rn到某些特征空间Rm。然后数量积X，Y在这个空间里面是φ(x)Tφ(y)。一个内核是一个函数K相当于数量积：k(x,y)=φ(x)Tφ(y)。内核提供了一种方法来计算某些特征空间中的点积，甚至不知道这个空间是什么。