机器学习有监督学习

作者: 李霖弢 | 来源:发表于2022-10-07 15:39 被阅读0次

2.3 机器学习概念 -方法分类
TensorFlow从零开始学(一)机器学习基础
机器学习里经常出现ground truth这个词解释
机器学习-线性回归（单变量）与梯度下降法应用
2018-11-28 机器学习打卡
机器学习概述
机器学习&监督学习&非监督学习概念
机器学习分类
python与机器学习
机器学习

Classification，分类，将事物归属到属于它的类别（离散）。
Regression，回归，属于结果为连续的实数。
特征提取 =》分类器训练 =》应用
特征是根据事物自身的特点，提取某方面数字或属性，并将其用向量表示。

分类器（不使用神经网络的简单分类）

分类器是一个函数，用于将特征向量转为预测的类别。
对同一数据集，不同的算法对应不同的 损失函数，用以衡量分类器在训练过程中输出错误的程度。通过损失函数不断优化方法，最终会获得不同的分类器及其参数。
通常对一个问题会训练多个分类器，通过测试数据找出准确率最高的分类器，再投入实际应用。

线性分类器

线性分类器即一条直线 $f(x_1,x_2)=a_1x_1 + a_2x_2 + b$ ，将二维坐标系中的点分隔为两类。其中 $a_1,a_2,b$ 都称为模型参数（paramaters）。
以下为两种常见的线性分类器算法，以最简单的2维特征值的2分类问题进行举例：

感知器（perceptron）

通过被误分类的训练数据调整现有参数，使分类器更准确。

损失函数（loss function）
$L(a_1,a_2,b)=\sum_{i=1}^{n}max(0,-y^{(i)} × (a_1x_1^{(i)} + a_2x_2^{(i)} + b))$
其中 $y^{(i)}$ 为第 $i$ 个数据的真实分类（-1或1）
如误分类数据越多，误差越大，则损失函数越大。不断迭代调整分类器参数，置到损失函数最小。
调整参数
若分类错误，即 $y×(a_1x_1 + a_2x_2 + b) ≤ 0$ ，则按以下规则更新：
$a_1 \gets a_1 + ηyx_1$
$a_2 \gets a_2 + ηyx_2$
$b \gets b + ηy$
其中 $η$ 为学习率（learning rate），即每一次更新参数的程度大小

支持向量机（support vector machine，SVM）

感知器可以找到多个符合训练集的参数，而支持向量机可以在其中找出最优解。

在分类准确的前提下，数据点距离分类直线越远，可信度越高。而两个类别中距离分类直线最近的点到直线的距离之和称为分类间隔（classification margin）。支持向量机即用于找出最大的分类间隔，其对应的两个坐标向量称为支持向量（support vector）。最终的分类器函数即该分类间隔的中间线。

任一数据 $(x_1^{(i)},x_2^{(i)})$ 和分类直线的几何间隔： $γ^{(i)}=y^{(i)}× \frac{a_1x_1 + a_2x_2 + b}{\sqrt{a_1^2 + a_2^2}}$
找到其最小值： $γ=\min_{i = 1,...,N}γ^{(i)}$
分类间隔为几何间隔2倍，即需要找到 $\max_{a_1,a_2,b}2γ$ ，换而言之损失函数即 $\min_{a_1,a_2,b}\frac{2}{γ}$ ，同时需满足每个训练数据点到分类直线几何间隔至少为 $γ$ ，则:
$\text{对每一个i有} \left\{ \begin{aligned} & \min_{a_1,a_2,b}\frac{2}{γ} \\ & y^{(i)}× \frac{a_1x_1 + a_2x_2 + b}{\sqrt{a_1^2 + a_2^2}}≥γ \end{aligned} \right.$

二分类与多分类

通常将多分类（multiclass classification）问题转化为多个二分类（binary classification）问题，每一个分类函数都只判别一个类别，如ABC三个类型，则对应三个分类器，分别判断是否为A、是否为B、是否为C。最终通过一个归一化指数函数（softmax）将多个分类器的结果合并输出为一个概率：
$\sigma(z_j)=\frac{e^{z_j}}{\sum_{k=1}^{K}e^{z_k}}$
其中 $j=1,...,K$ ，表示共 $K$ 个二分类函数， $z_j$ 为第 $j$ 个二分类函数输出的结果。先经过指数计算并最终会相加为1，因此称为归一化指数函数。
如三个二分类函数结果分别为 $(-1,2,3)$ ，则经过归一化指数函数结果为：

$\left\{ \begin{aligned} \frac{e^{-1}}{e^{-1} + e^{2} + e^{3}} = 0.013 \\ \frac{e^{2}}{e^{-1} + e^{2} + e^{3}} = 0.265 \\ \frac{e^{3}}{e^{-1} + e^{2} + e^{3}} = 0.722 \end{aligned} \right.$

可知概率分别为 $1.3\%、26.5\%、72.2\%$ ，相加为 $1$

分类器的应用

人脸检测
在图片中进行大量密集、重叠的切割，并分别判断是否为人脸。多个框都符合人脸且重叠时还会合并为一个框。

线性回归算法（linear regression algorithm）

假设共有 $m$ 个样本，每个样本有 $n$ 个特征量，用 $x^{(i)}_j$ 表示第 $i$ 个样本的第 $j$ 个特征量，用 $\theta_n$ 表示模型参数（paramaters），也称系数或权重（weight），则有线性假设（linear hypothesis）函数：

$h(x)=\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n$

其矩阵表示形式如下（其中 $x^{(i)}_0=1$ ）：

$\begin{bmatrix}\theta_0&\theta_1&...&\theta_n\end{bmatrix}×\begin{bmatrix}x^{(i)}_0\\x^{(i)}_1\\...\\x^{(i)}_n\end{bmatrix}$

平方差代价函数（cost function）

为各训练集数据真实值 $y^{(i)}$ 与函数预测值 $h_\theta(x^{(i)})$ 的差值平方和的平均值（通常取 $\frac{1}{2}$ ，方便后续微分时和 $2$ 相消）：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

一元线性回归的平方差代价函数

多项式回归与特征选取

特征不仅可以缩放，还可以自行进行其他变换。当使用线性函数无法拟合数据时，可考虑使用多项式函数。
如 $h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3y+\theta_4y^2+\theta_5xy$ ，则令特征取为： $x_1=x,x_2=x^2,x_3=y,x_4=y^2,x_5=xy$ ，可转化回线性回归： $h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4+\theta_5x_5$

梯度下降算法（gradient descent algorithm）

为 $\theta_n$ 赋予任意初始值（通常为0），不断同步改变各 $\theta_n$ 的值，使代价函数 $J(\overrightarrow{\theta})$ 的值不断变小，直到 $J(\overrightarrow{\theta})$ 收敛为局部最小值：

$\theta_{0\_temp}=\theta_0 - \alpha \frac{\delta}{\delta\theta_0}J(\overrightarrow{\theta})=\theta_0 - \alpha\frac{1}{n}\sum_{i=1}^{n}(\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n-y^{(i)})⋅x_0^{(i)}$
...
$\theta_{n\_temp}=\theta_1 - \alpha \frac{\delta}{\delta\theta_n}J(\overrightarrow{\theta})=\theta_0 - \alpha\frac{1}{n}\sum_{i=1}^{n}(\theta_0+\theta_1x^{(i)}_1+...+\theta_nx^{(i)}_n-y^{(i)})⋅x_n^{(i)}$

$\theta_0 = \theta_{0\_temp}$
...
$\theta_n = \theta_{n\_temp}$

其中 $\frac{\delta}{\delta\theta_1}J(\theta_0,...,\theta_n)$ 为偏导数。局部最低点的偏导数为0
每一次求偏导都用所有样本，则称为 Batch gradient descent，也有

学习率（learning rate）

$\alpha$ 为学习率（learning rate），用于控制梯度下降的幅度。学习率过大会导致跃过最低点出现震荡，过小则会导致计算过慢。
$\alpha$ 总是正数，这是 $\theta_n$ 改变能使 $J(\theta)$ 变小的保证。
通常可以以3倍左右间隔选取多个 $\alpha$ 值进行尝试（...、0.001、0.003、0.01、0.03、0.1、0.3、1、...），以获取一个合适的学习速率

特征缩放（feature scaling）

当不同特征量的取值范围差距过大时，梯度大的维度由于步长太大而震荡，梯度小的维度由于步长小而缓慢，此时需通过特征缩放使特征量的取值范围尽量接近，通常可采用 -1~1 附近的范围：
如 $x_1$ 为0 ~ 2000米，而 $x_2$ 为1 ~ 5个，此时每一步偏导数计算后， $\theta_{1\_temp}$ 的改变值明显大于 $\theta_{2\_temp}$ 。通过特征缩放，将 $x_1$ 单位改为（2000米）， $x_2$ 单位改成（5个），则两者范围都变为 0~1。
也可以更进一步，令 $x_1=\frac{x_1-1000}{2000},x_2=\frac{x_2-2}{5}$ ，则不但范围统一，还使平均值都为0.

正规方程（normal equation）

不同于梯度下降算法，通过导数方法直接输出使代价函数最小的 $\theta$ 值。
但当特征量比较多时（如超过一万个）不如梯度下降算法，运算极慢

$\overrightarrow{\theta}=(X^TX)^{-1}X^Ty$

当 $X^TX$ 为不可逆矩阵时，可以做如下操作：

删除一些相互间非线性独立的特征，如特征 $x_1=2x_2+x_3$ 时，删除其一
使用伪逆函数代替逆函数求解（如Octave中的pinv代替inv）

2.3 机器学习概念 -方法分类
机器学习的方法分类监督学习非监督学习半监督学习增强学习 1. 监督学习含义:给机器训练的数据,有了"标记...
TensorFlow从零开始学(一)机器学习基础
TensorFlow从零开始学 [toc] 机器学习基础人工智能机器学习分类有监督学习无监督学习半监督学习强化...
机器学习里经常出现ground truth这个词解释
机器学习包括有监督学习(supervised learning)，无监督学习(unsupervised learn...
机器学习-线性回归（单变量）与梯度下降法应用
机器学习(Machine Learning) 机器学习主要由监督学习、非监督学习、半监督学习、强化学习等组成。监...
2018-11-28 机器学习打卡
05课机器如何学习有监督学习Supervised Learning：有标签label 无监督学习Unsuper...
机器学习概述
机器学习分为【监督学习】和【无监督学习】。监督学习是有明确目的的，数据的输出都是有预期的。无监督学习是没有明确...
机器学习&监督学习&非监督学习概念
机器学习&监督学习&非监督学习概念机器学习 Tom Mitchell provides a more moder...
机器学习分类
就目前机器学习的主流算法做个概述机器学习目前分有监督机器学习和无监督机器学习。一个形象的比喻就是做练习题，这个练习...
python与机器学习
@[toc] 机器学习的目标机器学习分类监督学习（supervised learning）无监督学习（uns...
机器学习
机器学习 1、什么是机器学习？机器学习算法分类又分为监督学习和无监督学习监督学习定义：输入数据是由输入特征值和...

机器学习有监督学习

分类器（不使用神经网络的简单分类）

线性分类器

感知器（perceptron）

支持向量机（support vector machine，SVM）

二分类与多分类

分类器的应用

线性回归算法（linear regression algorithm）

平方差代价函数（cost function）

多项式回归与特征选取

梯度下降算法（gradient descent algorithm）

学习率（learning rate）

特征缩放（feature scaling）

正规方程（normal equation）

相关文章

2.3 机器学习概念 -方法分类

TensorFlow从零开始学(一)机器学习基础

机器学习里经常出现ground truth这个词解释

机器学习-线性回归（单变量）与梯度下降法应用

2018-11-28 机器学习打卡

机器学习概述

机器学习&监督学习&非监督学习概念

机器学习分类

python与机器学习

机器学习

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习 有监督学习

分类器（不使用神经网络的简单分类）

线性分类器

感知器（perceptron）

支持向量机（support vector machine，SVM）

二分类与多分类

分类器的应用

线性回归算法（linear regression algorithm）

平方差代价函数（cost function）

多项式回归与特征选取

梯度下降算法（gradient descent algorithm）

学习率（learning rate）

特征缩放（feature scaling）

正规方程（normal equation）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习有监督学习