哲哲的ML笔记（二十六：SVM之核函数）

作者: 沿哲 | 来源:发表于2021-04-23 10:53 被阅读0次

哲哲的ML笔记（二十六：SVM之核函数）
哲哲的ML笔记（十九：如何评估假设函数）
哲哲的ML笔记（二十四：支持向量机SVM）
哲哲的ML笔记（二：模型）
哲哲的ML笔记（四：矩阵）
哲哲的ML笔记（三：梯度下降）
哲哲的ML笔记（七：学习率）
哲哲的ML笔记（九：正规方程）
哲哲的ML笔记（十八：反向传播）
哲哲的ML笔记（十一：决策边界）

什么是核函数

分类问题中，可以使用高级数的多项式模型来解决无法用直线进行分隔的分类问题

假设上图的假设函数是

h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x^2_1+\theta_5x^2_2+…

除了对原有的特征进行组合以外，有没有更好的方法来构造？我们可以利用核函数来计算出新的特征
可以用一系列的新的特征 $f$ 来替换模型中的每一项： $f_1=x_1$ , $f_2=x_2$ , $f_3=x_1x_2$ ……

给定一个训练样本 $x$ ，我们利用的各个特征与我们预先选定的地标 $l^1,l^2,l^3$ (landmarks)的近似程度来选取新的特征 $f_1, f_2,f_3$

近似度的定义为

f_1=similarity(x,l^1)=e^{-\frac{\|x-l^1\|^2}{2\sigma^2}}

所有特征与地标

l^1

之间的距离的和定义如下：

\|x-l^1\|^2=\sum^{n}_{j=1}(x_j-l^1_j)^2

其中，核函数为

similarity(x,l^1)

，具体而言，这里是一个高斯核函数(Gaussian Kernel)。 (注：这个函数与正态分布没什么实际上的关系，只是看上去像而已。

如果一个训练样本 $x$ 与地标 $l$ 之间的距离近似于0，则新特征 $f$ 近似于1，如果训练样本与地标之间距离较远，则近似于0

假设我们的训练样本含有两个特征 $[x_1,x_2]$ ，给定地标与不同的 $\sigma$ 值，见下图

当样本值与地标值重合时，核函数才具有最大值1

如下图，假设了一组 $\theta$ 值，假设一个样本是图中的粉色点，距离 $l^1$ 很近， $f_1$ 趋近于1， $f_2$ 和 $f_3$ 趋近于0，那么假设函数的值为1，预测为1
假设一个样本数是图中蓝色的点， $f_1$ 和 $f_2$ 和 $f_3$ 都趋近于0，假设函数为0，预测为0

这样，图中红色的封闭曲线所表示的范围，便是我们依据一个单一的训练样本和我们选取的地标所得出的判定边界，在预测时，我们采用的特征不是训练样本本身的特征，而是通过核函数计算出的新特征

核函数如何选取

通常是根据训练集的数量选择地标的数量，即如果训练集中有 $m$ 个样本，则我们选取 $m$ 个地标，并且令: $l^1=x_1, l^2=x_2……$ 。这样做的好处在于：现在我们得到的新特征是建立在原有特征与训练集中所有其他特征之间距离的基础之上的，即

对于一个样本 $x$ ，根据核函数计算出 $f\in R^{m+1}$ ，当 $\theta^Tf\geq0$ ，预测 $y=1$
怎么得到 $\theta$ ？通过代价函数,注意 $\sum^{m}_{j=1}\theta^2_j$ 是加到m，不是n
$minC\sum^{m}_{i=1}y^icost_1(\theta^Tf^i)+(1-y^i)cost_0(\theta^Tf^i)+\frac{1}{2}\sum^{m}_{j=1}\theta^2_j$

下面是支持向量机的两个参数 $C$ 和 $\sigma$ 的影响：

$C$ 过大，相当于 $\lambda$ 过小，过拟合
$sigma$ 过大， $f_i$ 变化的非常平滑（见上一部分第3个图），欠拟合

使用SVM注意事项

尽管你不去写你自己的SVM的优化软件，但是你也需要做几件事：
1、参数 $C$ 的选择，上一部分讨论过误差/方差在这方面的性质。
2、你选择不需要任何内核参数，没有内核参数的理念，也叫线性核函数。因此，如果有人说他使用了线性核的SVM（支持向量机），这就意味这他使用了不带有核函数的SVM（支持向量机）。

下面是一些普遍使用的准则： $n$ 为特征数， $m$ 为训练样本数。

如果相较于 $m$ 而言， $n$ 要大许多，即训练集数据量不够支持我们训练一个复杂的非线性模型，我们选用逻辑回归模型或者不带核函数的支持向量机。
如果 $n$ 较小，而且 $m$ 大小中等，例如在 1-1000 之间，而在10-10000之间，使用高斯核函数的支持向量机。
如果 $n$ 较小，而 $m$ 较大，例如 $n$ 在1-1000之间，而 $m$ 大于50000，则使用支持向量机会非常慢，解决方案是创造、增加更多的特征，然后使用逻辑回归或不带核函数的支持向量机。

值得一提的是，神经网络在以上三种情况下都可能会有较好的表现，但是训练神经网络可能非常慢，选择支持向量机的原因主要在于它的代价函数是凸函数，不存在局部最小值

哲哲的ML笔记（二十六：SVM之核函数）
什么是核函数分类问题中，可以使用高级数的多项式模型来解决无法用直线进行分隔的分类问题假设上图的假设函数是除了...
哲哲的ML笔记（十九：如何评估假设函数）
1个场景假如你在用线性回归训练一个预测房价的模型，使用如下的代价函数但是发现在新数据集上进行TEST环节有了很大...
哲哲的ML笔记（二十四：支持向量机SVM）
从逻辑回归到SVM 与逻辑回归和神经网络相比，支持向量机，或者简称SVM，在学习复杂的非线性方程时提供了一种更为清...
哲哲的ML笔记（二：模型）
1. 参数设定：训练实例数：输入变量/特征：预测的目标变量：一个训练样本：第 i 个训练样本：hypothesi...
哲哲的ML笔记（四：矩阵）
此处简略了很多内容，实际课程中讲得很细、很基础矩阵乘法性质 1.不满足交换律：满足结合律：转置、逆没有逆矩...
哲哲的ML笔记（三：梯度下降）
1. 前提回顾已知：代价函数，希望找到对应的参数使得最小思路：令从任意值开始（一般设置为=0）；每次微小改变直到...
哲哲的ML笔记（七：学习率）
代价函数-迭代次数梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和...
哲哲的ML笔记（九：正规方程）
到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程方法是更好的解决方案正规方程是通过求解 ...
哲哲的ML笔记（十八：反向传播）
正向传播在之前介绍的通过神经网络预测结果，我们使用的其实是一种正向传播方法，从第一层开始正向一层一层进行计算，直...
哲哲的ML笔记（十一：决策边界）
决策边界根据函数表达式和图像，可以得到则假设有这样一个模型并且参数是向量[-3 1 1]。则当，即 ...