由上图可知，因为总有3个类别，得分函数s是3x1的向量。其中，cat score=-96.8，dog score=437.9，ship score=61.95。从s的值来说，dog score最高，cat score最低，则预测为狗的概率更大一些。而该图片真实标签是一只猫，显然，从得分函数s上来看，该线性分类器的预测结果是错误的。

通常为了简化计算，我们直接将W和b整合成一个矩阵，同时将x额外增加一个全为1的维度。这样，得分函数s的表达式得到了简化：

[图片上传失败...(image-f20a91-1528782147195)]

[图片上传失败...(image-6fba09-1528782147195)]

[图片上传失败...(image-390a7-1528782147195)]

示例图如下：

这里写图片描述

3. 优化策略与损失函数

通常来说，SVM的优化策略是样本到分类超平面的距离最大化。也就是说尽量让正负样本距离分类超平面有足够宽的间隔，这是基于距离的衡量优化方式。针对上文提到的例子，图片真实标签是一只猫，但是得到的s值却是最低的，显然这不是我们希望看到的。最好的情况应该是cat score最高。这样才能保证预测cat的概率更大。此时，利用SVM的间隔最大化的思想，就要求cat score不仅仅要大于其它类别的s值，而且要达到一定的程度，可以说有个最低阈值。

因此，这种新的SVM优化策略可以这样理解：正确类别对应的得分函数s应该比其它类别的得分函数s大一个阈值 Δ：

[图片上传失败...(image-95955a-1528782147195)]

接下来，我们就可以根据这种思想定义SVM的损失函数：

[图片上传失败...(image-1f9f84-1528782147196)])

其中，yi表示正确的类别，j表示错误类别。从Li的表达式可以看出，只有当syi比sj大超过阈值 Δ 时，Li才为零，否则Li大于零。这种策略类似于距离最大化策略。

举个例子来解释Li的计算过程：例如得分函数s=[-1, 5, 4]，y1是真实样本，令Δ=3，则：

[图片上传失败...(image-c70beb-1528782147196)]+max(0,4-5+3)=0+2=2)

该损失函数由两部分组成：y1与y0，y1与y2。由于y1与y0的差值大于阈值 Δ，则其损失函数为0；虽然y1比y2大，但差值小于阈值 Δ，则计算得到其损失函数为2。总的损失函数即为2。

这类损失函数的表达式一般称作合页损失函数「Hinge Loss Function」：

这里写图片描述

显然，只有当[图片上传失败...(image-79c8ef-1528782147196)]时，损失函数才为零。

这种合页损失函数的优点是体现了SVM距离最大化的思想；而且，损失函数大于零时，是线性函数，便于梯度下降算法求导。

除了这种线性hinge loss SVM之外，还有squared hinge loss SVM，即采用平方的形式：

[图片上传失败...(image-ba704c-1528782147196)]^2)

这种squared hinge loss SVM与linear hinge loss SVM相比较，特点是对违背间隔阈值要求的点加重惩罚，违背的越大，惩罚越大。某些实际应用中，squared hinge loss SVM的效果更好一些。具体使用哪个，可以根据实际问题，进行交叉验证再确定。

对于超参数阈值 Δ，一般设置 Δ=1。因为，权重系数W是可伸缩的，直接影响着得分函数s的大小。所以说，Δ=1 或 Δ=10，实际上没有差别，对W的伸缩完全可以抵消掉 Δ 的数值影响。因此，通常把 Δ 设置为1即可。此时的损失函数为：

[图片上传失败...(image-c26ea5-1528782147196)])

SVM中，为了防止模型过拟合，可以使用正则化「Regularization」方法。例如使用L2正则化：

[图片上传失败...(image-a9915a-1528782147196)]=\sum_k\sum_lw_{k,l}^2)

引入正则化项之后的损失函数为：

[图片上传失败...(image-bb3e15-1528782147196)])

其中，N是训练样本个数，λ 是正则化参数，可调。一般来说，λ 越大，对权重W的惩罚越大；λ 越小，对权重W的惩罚越小。λ 实际上是权衡损失函数第一项和第二项之间的关系：λ 越大，对W的惩罚更大，牺牲正负样本之间的间隔，可能造成欠拟合「underfit」；λ 越小，得到的正负样本间隔更大，但是W数值会变大，可能造成过拟合「overfit」。实际应用中，可通过交叉验证，选择合适的正则化参数 λ。

常数项b是否需要正则化？其实一般b是否正则化对模型的影响很小。可以对b进行正则化，也可以选择不。实际应用中，通常只对权重系数W进行正则化。

4. 线性SVM实战

首先，简单介绍一下我们将要用到的经典数据集：CIFAR-10。

CIFAR-10数据集由60000张3×32×32的 RGB 彩色图片构成，共10个分类。50000张训练，10000张测试（交叉验证）。这个数据集最大的特点在于将识别迁移到了普适物体，而且应用于多分类，是非常经典和常用的数据集。

这里写图片描述

这个数据集网上可以下载，我直接给大家下好了，放在云盘里，需要的自行领取。

链接：https://pan.baidu.com/s/1iZPwt72j-EpVUbLKgEpYMQ

密码：vy1e

下面的代码是随机选择每种类别下的5张图片并显示：

# Visualize some examples from the dataset.
# We show a few examples of training images from each class.
classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
num_classes = len(classes)
samples_per_class = 7
for y, cls in enumerate(classes):
   idxs = np.flatnonzero(y_train == y)
   idxs = np.random.choice(idxs, samples_per_class, replace=False)
   for i, idx in enumerate(idxs):
       plt_idx = i * num_classes + y + 1
       plt.subplot(samples_per_class, num_classes, plt_idx)
       plt.imshow(X_train[idx].astype('uint8'))
       plt.axis('off')
       if i == 0:
           plt.title(cls)
plt.show()

这里写图片描述

接下来，就是对SVM计算hinge loss，包含L2正则化，代码如下：

scores = X.dot(W) 
correct_class_score = scores[range(num_train), list(y)].reshape(-1,1) # (N,1)
margin = np.maximum(0, scores - correct_class_score + 1)
margin[range(num_train), list(y)] = 0
loss = np.sum(margin) / num_train + 0.5 * reg * np.sum(W * W)

计算W梯度的代码如下：

num_classes = W.shape[1]
inter_mat = np.zeros((num_train, num_classes))
inter_mat[margin > 0] = 1
inter_mat[range(num_train), list(y)] = 0
inter_mat[range(num_train), list(y)] = -np.sum(inter_mat, axis=1)

dW = (X.T).dot(inter_mat)
dW = dW/num_train + reg*W

根据SGD算法，每次迭代后更新W：

W -=  learning_rate * dW

训练过程中，使用交叉验证的方法选择最佳的学习因子 learning_rate 和正则化参数 reg，代码如下：

learning_rates = [1.4e-7, 1.5e-7, 1.6e-7]
regularization_strengths = [8000.0, 9000.0, 10000.0, 11000.0, 18000.0, 19000.0, 20000.0, 21000.0]

results = {}
best_lr = None
best_reg = None
best_val = -1   # The highest validation accuracy that we have seen so far.
best_svm = None # The LinearSVM object that achieved the highest validation rate.

for lr in learning_rates:
   for reg in regularization_strengths:
       svm = LinearSVM()
       loss_history = svm.train(X_train, y_train, learning_rate = lr, reg = reg, num_iters = 2000)
       y_train_pred = svm.predict(X_train)
       accuracy_train = np.mean(y_train_pred == y_train)
       y_val_pred = svm.predict(X_val)
       accuracy_val = np.mean(y_val_pred == y_val)
       if accuracy_val > best_val:
           best_lr = lr
           best_reg = reg
           best_val = accuracy_val
           best_svm = svm
       results[(lr, reg)] = accuracy_train, accuracy_val
       print('lr: %e reg: %e train accuracy: %f val accuracy: %f' %
             (lr, reg, results[(lr, reg)][0], results[(lr, reg)][1]))
print('Best validation accuracy during cross-validation:\nlr = %e, reg = %e, best_val = %f' %
     (best_lr, best_reg, best_val))

训练结束后，选择最佳的学习因子 learning_rate 和正则化参数 reg，在测试图片集上进行验证，代码如下：

# Evaluate the best svm on test set
y_test_pred = best_svm.predict(X_test)
test_accuracy = np.mean(y_test == y_test_pred)
print('linear SVM on raw pixels final test set accuracy: %f' % test_accuracy)

linear SVM on raw pixels final test set accuracy: 0.384000

最后，有个比较好玩的操作，我们可以将训练好的权重W可视化：

# Visualize the learned weights for each class.
# Depending on your choice of learning rate and regularization strength, these may
# or may not be nice to look at.
w = best_svm.W[:-1,:] # strip out the bias
w = w.reshape(32, 32, 3, 10)
w_min, w_max = np.min(w), np.max(w)
classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
for i in range(10):
   plt.subplot(2, 5, i + 1)
     
   # Rescale the weights to be between 0 and 255
   wimg = 255.0 * (w[:, :, :, i].squeeze() - w_min) / (w_max - w_min)
   plt.imshow(wimg.astype('uint8'))
   plt.axis('off')
   plt.title(classes[i])

这里写图片描述

可以明显看出，由W重构的图片具有所属样本类别相似的地方，这正是线性SVM学习到的东西。

5. 总结

本文讲述的线性SVM利用距离间隔最大的思想，利用hinge loss的优化策略，来构建一个机器学习模型，并将这个简单模型应用到CIFAR-10图片集中进行训练和测试。实际测试的准确率在40%左右。准确率虽然不是很高，但是此SVM是线性模型，没有引入核函数构建非线性模型，也没有使用AlexNet，VGG，GoogLeNet，ResNet等卷积网络。测试结果比随机猜测10%要好很多，是一个不错的可实操的有趣模型。

完整代码，点击「源码」获取。

源码

这里写图片描述

参考资料：

http://cs231n.github.io/linear-classify/

基于线性SVM的CIFAR-10图像集分类
个人网站：红色石头的机器学习之路CSDN博客：红色石头的专栏知乎：红色石头微博：RedstoneWill的微博Gi...
OpenCV和SVM分类器在自动驾驶中的车辆检测
在标记的图像训练集上进行面向梯度的直方图（HOG）特征提取并训练分类器线性SVM分类器应用颜色转换，并将分箱的颜...
基于SVM的思想做CIFAR-10图像分类
SVM 回顾一下之前的SVM，找到一个间隔最大的函数，使得正负样本离该函数是最远的，是否最远不是看哪个点离函数最远...
ML 监督学习分类支持向量机
SVM最初被用来解决线性分类问题，加入核方法之后能有效解决非线性问题。分类学习基本思想：基于训练集在样本空间中找...
2018 年大疆机器学习算法工程师春季提前批笔试题
一、单项选择题 SVM 分类和深度学习分类B. SVM 只能应用于线性分类错误，SVM 可以应用于线性分类和非线...
机器学习之支持向量机
SVM可以做线性或者非线性的分类，回归，甚至异常值检测。 1. 线性SVM分类左图显示了三种可能的线性分类器的判...
机器学习笔记02-支持向量机SVM（上）
目录什么是SVM 线性分类器的含义怎么找线性分类器 1.什么是SVM SVM支持向量机，号称机器学习的拦路虎。...
损失函数
线性分类器简介线性评分函数阐明线性分类器损失函数多分类SVMsoftmax分类器SVM和softmax的比较...
tensorflow学习笔记-cifar10图像分类示例
这篇笔记主要记录一下学习tensorflow cifar-10图像分类的示例代码。数据介绍 Cifar-10是由...
基于PyTorch的CIFAR10小记
CIFAR-10数据集介绍 CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000...