美文网首页
机器学习 有监督学习

机器学习 有监督学习

作者: 李霖弢 | 来源:发表于2022-10-07 15:39 被阅读0次

Classification,分类,将事物归属到属于它的类别(离散)。
Regression,回归,属于结果为连续的实数。
特征提取 =》 分类器训练 =》 应用
特征是根据事物自身的特点,提取某方面数字或属性,并将其用向量表示。


分类器(不使用神经网络的简单分类)

分类器是一个函数,用于将特征向量转为预测的类别。
对同一数据集,不同的算法对应不同的 损失函数,用以衡量分类器在训练过程中输出错误的程度。通过损失函数不断优化方法,最终会获得不同的分类器及其参数。
通常对一个问题会训练多个分类器,通过测试数据找出准确率最高的分类器,再投入实际应用。

线性分类器

线性分类器即一条直线 f(x_1,x_2)=a_1x_1 + a_2x_2 + b,将二维坐标系中的点分隔为两类。其中a_1,a_2,b都称为模型参数(paramaters)
以下为两种常见的线性分类器算法,以最简单的2维特征值的2分类问题进行举例:

感知器(perceptron)

通过被误分类的训练数据调整现有参数,使分类器更准确。

  • 损失函数(loss function)
    L(a_1,a_2,b)=\sum_{i=1}^{n}max(0,-y^{(i)} × (a_1x_1^{(i)} + a_2x_2^{(i)} + b))
    其中y^{(i)}为第i个数据的真实分类(-1或1)
    如误分类数据越多,误差越大,则损失函数越大。不断迭代调整分类器参数,置到损失函数最小。
  • 调整参数
    若分类错误,即y×(a_1x_1 + a_2x_2 + b) ≤ 0,则按以下规则更新:
    a_1 \gets a_1 + ηyx_1
    a_2 \gets a_2 + ηyx_2
    b \gets b + ηy
    其中 η 为学习率(learning rate),即每一次更新参数的程度大小
支持向量机(support vector machine,SVM)

感知器可以找到多个符合训练集的参数,而支持向量机可以在其中找出最优解。

在分类准确的前提下,数据点距离分类直线越远,可信度越高。而两个类别中距离分类直线最近的点到直线的距离之和称为分类间隔(classification margin)。支持向量机即用于找出最大的分类间隔,其对应的两个坐标向量称为支持向量(support vector)。最终的分类器函数即该分类间隔的中间线。

任一数据(x_1^{(i)},x_2^{(i)})和分类直线的几何间隔:γ^{(i)}=y^{(i)}× \frac{a_1x_1 + a_2x_2 + b}{\sqrt{a_1^2 + a_2^2}}
找到其最小值:γ=\min_{i = 1,...,N}γ^{(i)}
分类间隔为几何间隔2倍,即需要找到 \max_{a_1,a_2,b}2γ,换而言之损失函数即\min_{a_1,a_2,b}\frac{2}{γ},同时需满足每个训练数据点到分类直线几何间隔至少为γ,则:
\text{对每一个i有} \left\{ \begin{aligned} & \min_{a_1,a_2,b}\frac{2}{γ} \\ & y^{(i)}× \frac{a_1x_1 + a_2x_2 + b}{\sqrt{a_1^2 + a_2^2}}≥γ \end{aligned} \right.

二分类与多分类

通常将多分类(multiclass classification)问题转化为多个二分类(binary classification)问题,每一个分类函数都只判别一个类别,如ABC三个类型,则对应三个分类器,分别判断是否为A、是否为B、是否为C。最终通过一个归一化指数函数(softmax)将多个分类器的结果合并输出为一个概率:
\sigma(z_j)=\frac{e^{z_j}}{\sum_{k=1}^{K}e^{z_k}}
其中j=1,...,K,表示共K个二分类函数,z_j为第j个二分类函数输出的结果。先经过指数计算并最终会相加为1,因此称为归一化指数函数。
如三个二分类函数结果分别为(-1,2,3),则经过归一化指数函数结果为:

\left\{ \begin{aligned} \frac{e^{-1}}{e^{-1} + e^{2} + e^{3}} = 0.013 \\ \frac{e^{2}}{e^{-1} + e^{2} + e^{3}} = 0.265 \\ \frac{e^{3}}{e^{-1} + e^{2} + e^{3}} = 0.722 \end{aligned} \right.

可知概率分别为1.3\%、26.5\%、72.2\%,相加为1

分类器的应用

  • 人脸检测
    在图片中进行大量密集、重叠的切割,并分别判断是否为人脸。多个框都符合人脸且重叠时还会合并为一个框。

线性回归算法(linear regression algorithm)

假设共有m个样本,每个样本有n个特征量,用x^{(i)}_j表示第i个样本的第j个特征量,用\theta_n表示模型参数(paramaters),也称系数或权重(weight),则有线性假设(linear hypothesis)函数:

h(x)=\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n

其矩阵表示形式如下(其中x^{(i)}_0=1):

\begin{bmatrix}\theta_0&\theta_1&...&\theta_n\end{bmatrix}×\begin{bmatrix}x^{(i)}_0\\x^{(i)}_1\\...\\x^{(i)}_n\end{bmatrix}

平方差代价函数(cost function)

为各训练集数据真实值y^{(i)} 与 函数预测值h_\theta(x^{(i)}) 的差值平方和的平均值(通常取\frac{1}{2},方便后续微分时和2相消):

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2

一元线性回归的平方差代价函数

多项式回归与特征选取

特征不仅可以缩放,还可以自行进行其他变换。当使用线性函数无法拟合数据时,可考虑使用多项式函数。
h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3y+\theta_4y^2+\theta_5xy,则令特征取为:x_1=x,x_2=x^2,x_3=y,x_4=y^2,x_5=xy,可转化回线性回归:h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4+\theta_5x_5

梯度下降算法(gradient descent algorithm)

\theta_n赋予任意初始值(通常为0),不断同步改变各\theta_n的值,使代价函数J(\overrightarrow{\theta})的值不断变小,直到J(\overrightarrow{\theta})收敛为局部最小值:

\theta_{0\_temp}=\theta_0 - \alpha \frac{\delta}{\delta\theta_0}J(\overrightarrow{\theta})=\theta_0 - \alpha\frac{1}{n}\sum_{i=1}^{n}(\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n-y^{(i)})⋅x_0^{(i)}
...
\theta_{n\_temp}=\theta_1 - \alpha \frac{\delta}{\delta\theta_n}J(\overrightarrow{\theta})=\theta_0 - \alpha\frac{1}{n}\sum_{i=1}^{n}(\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n-y^{(i)})⋅x_n^{(i)}

\theta_0 = \theta_{0\_temp}
...
\theta_n = \theta_{n\_temp}

  • 其中\frac{\delta}{\delta\theta_1}J(\theta_0,...,\theta_n)为偏导数。局部最低点的偏导数为0
  • 每一次求偏导都用所有样本,则称为 Batch gradient descent,也有
学习率(learning rate)

\alpha学习率(learning rate),用于控制梯度下降的幅度。学习率过大会导致跃过最低点出现震荡,过小则会导致计算过慢。
\alpha总是正数,这是\theta_n改变能使J(\theta)变小的保证。
通常可以以3倍左右间隔选取多个\alpha值进行尝试(...、0.001、0.003、0.01、0.03、0.1、0.3、1、...),以获取一个合适的学习速率

特征缩放(feature scaling)

当不同特征量的取值范围差距过大时,梯度大的维度由于步长太大而震荡,梯度小的维度由于步长小而缓慢,此时需通过特征缩放使特征量的取值范围尽量接近,通常可采用 -1~1 附近的范围:
x_1 为0 ~ 2000米,而 x_2 为1 ~ 5个,此时每一步偏导数计算后,\theta_{1\_temp}的改变值明显大于\theta_{2\_temp}。通过特征缩放,将x_1单位改为(2000米),x_2单位改成(5个),则两者范围都变为 0~1。
也可以更进一步,令x_1=\frac{x_1-1000}{2000},x_2=\frac{x_2-2}{5},则不但范围统一,还使平均值都为0.

正规方程(normal equation)

不同于梯度下降算法,通过导数方法直接输出使代价函数最小的\theta值。
但当特征量比较多时(如超过一万个)不如梯度下降算法,运算极慢

\overrightarrow{\theta}=(X^TX)^{-1}X^Ty

X^TX为不可逆矩阵时,可以做如下操作:

  1. 删除一些相互间非线性独立的特征,如特征x_1=2x_2+x_3时,删除其一
  2. 使用伪逆函数代替逆函数求解(如Octave中的pinv代替inv

相关文章

网友评论

      本文标题:机器学习 有监督学习

      本文链接:https://www.haomeiwen.com/subject/uctwartx.html