李宏毅机器学习——误差和梯度下降

作者: migugu | 来源:发表于2022-05-19 15:24 被阅读0次

误差

误差的来源

在机器学习中，误差=偏差+方差(Error=Bias+Variance)。

Error反映整个模型的准确度

Bias反映模型在样本上的输出与真实值之间的误差，即模型本身的精准度

Variance反映模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性

Bias的计算

估计μ: $m=\dfrac{1}{n} \sum_{n} {x^n} \neq μ$

$E(m)=E(\dfrac{1}{n} \sum_{n} {x^n}) = \dfrac{1}{N}\sum_n E(x^n)=μ$

$m$ 分布对于 $μ$ 的离散程度(方差): $Var(m)=\dfrac{σ^2}{N}$

Var的计算

估计 $\sigma ^ 2$ :

$m=\dfrac{1}{N} \sum_{n} x^{n}$

$s^{2}=\dfrac{1}{N} \sum_{n}\left(x^{n}-m\right)^{2}$

$E\left[s^{2}\right]=\dfrac{N-1}{N} \sigma^{2} \neq \sigma^{2}$

下面这张图可以更直观地显示Bias和Variance的区别。

Bias vs Variance

比较简单的model var小（受数据的影响小），var大；复杂的model var大，bias小。

简单模型拟合能力不如复杂模型，所以对一些偏差较大的值不太敏感。

简单模型是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型是方差过大造成的误差，这种情况叫做过拟合。

过拟合和欠拟合

欠拟合：模型没有很好的训练训练集，偏差过大。
过拟合：模型在训练集上得到很小的错误，但是在测试集上得到很大的错误。

处理方式

偏差大-欠拟合：重新设计模型，加入更多的函数，或者考虑更复杂的模型。

方差大-过拟合：更多的数据（可以采用数据增强方法）；正则化。

模型的选择

权衡偏差和偏差，使得总误差最好，但是公共测试集的数据往往是不可靠的，所以不要做下面这张图片的事。

Model Selection

交叉验证
将训练集分为训练集和验证集，根据验证集上的error选择模型。

Cross Validation1

N-折交叉验证
将训练集分为N份，在每一份上分别训练模型，最后再用全部训练数据上训练较好的模型。

Cross Validation 2

梯度下降

梯度下降法

在回归问题中需要解决最优化问题，使得 $Loss$ 最小。

gd1.png

这里的parameters是复数，即 $\theta$ 。需要找一组参数 $\theta$ ，让损失函数越小越好，可以用梯度下降法解决。

$\theta$ 有里面有两个参数 $θ_1,θ_2$ ，随机选取初始值；
分别计算偏微分，得到梯度，根据学习率更新参数

gd2.png

学习率的调整

将参数改变对损失函数的影响进行可视化（右图）。

gd3.png

自适应学习率

随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，使用大一点的学习率
update好几次参数之后，比较靠近最低点了，减少学习率

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率

Adagrad

每个参数的学习率都把它除上之前微分的均方根。

普通的梯度下降
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\eta^{\mathrm{t}} \mathrm{g}^{\mathrm{t}}$
$\eta^{\mathrm{t}}=\frac{\eta^{\mathrm{t}}}{\sqrt{\mathrm{t}+1}}$
Adagard
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\frac{\eta^{\mathrm{t}}}{\sigma^{\mathrm{t}}} \mathrm{g}^{\mathrm{t}}$
$\mathrm{g}^{\mathrm{t}}=\frac{\partial \mathrm{L}\left(\theta^{\mathrm{t}}\right)}{\partial \mathrm{w}}$

$\sigma ^ t$ : 之前参数的所有微分的均方根，对于每个参数都是不一样的。

具体的参数更新过程

adagard.png

对 Adagard 式子进行化简，得到
$w^{t+1} \leftarrow w^t - \dfrac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}$

adagard2.png

Adagard存在的矛盾？

adagard3.png

Gradient越大的时候，分母越大，更新的步伐越小？

Adagard考虑的是Gradient的反差
计算过去Gradient的平方和

不一定gradient越大，距离loss最低点越远

最佳的步伐应该是 $\dfrac{一次微分}{二次微分}$

对于 ${\sqrt{\sum_{i=0}^t(g^i)^2}}$ ，就是希望再尽可能不增加过多运算的情况下模拟二次微分。

（如果计算二次微分，在实际情况中可能会增加很多的时间消耗）

随机梯度下降SGD

随机梯度下降损失函数不需要用到全部的训练数据，而是随机选取一个例子计算损失函数，并且更新梯度。

传统梯度下降

$\mathrm{L}=\sum_{\mathrm{n}}\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}\left(\theta^{\mathrm{i}-1}\right)$

随机梯度下降

$\mathrm{L}=\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}^{\mathrm{n}}\left(\theta^{\mathrm{i}-1}\right)$

不需要对所有数据进行处理，更新速度更快。

特征缩放 Feature Scaling

对特征数量较多的时候，将不同的feature范围缩放到一致，保证这些特征具有相近的尺度（无量纲化），可以使梯度下降法更快的收敛。

Feature Scaling的方法

Min-Max Normalization（min-max标准化）
$x^{*}=\frac{x-\min (x)}{\max (x)-\min (x)}$
Mean normalization（mean归一化）
$x^{*}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}$
Standarddization（z-score标准化）
$x^{*}=\frac{x-x}{\sigma}$
max标准化
$x^{*}=\frac{x}{\max (x)}$