Review: Gradient Descent

作者: 小光_499f | 来源:发表于2018-08-16 04:23 被阅读0次

Review: Gradient Descent
[机器学习入门] 李宏毅机器学习笔记-3 （Gradient D
【机器学习】-Week2 2. 多变量线性回归梯度下降
gradient descent
凸优化之backtracking方法 -gradient des
Gradient Descent
Gradient Descent
Gradient Descent
gradient descent
Gradient Boosting简介

如果我们想找一个最好的function，我们就需要optimization

L：loss function 𝜃: parameters 来最小化 loss function

接下来的步骤就是偏导数来迭代parameters，推到步骤就不写了，网上很多。

下面引用李宏毅老师的ML课件

注意：

其实这里要注意的就是gradient 就是切线的法向量，切线就是slope，如果slope为负值，那么每次迭代的parameter值就应该是增加的，如果slope为正，那么每次迭代的parameter值就应该是减小的。

Tipe1： Learning Rate

接下来说 Learning Rate 的设置问题：

1> 如果learning Rate 设置过小，那就会iteration很多次才可以得到想要的最小值，

2> 如果learning Rate 设置太大，很可能会就直接跨过我们想要的值。

下图黄线代表learning Rate设置过大，绿线较大，蓝线设置较小

如何解决这个问题呢？

在迭代的开始我们可以设置较大的learning Rate，随着迭代，我们缩小我们的learning Rate。

李宏毅老师给出一个方法叫做 Adagrad：

不同的参数我们设置不同learning Rate

g 是这个参数W的偏微分，不同的参数 g 是不同的，从而导致learning Rate也不相同

但是 Adagrad 存在着矛盾

如何解释这个问题？

比如初始点在 x0，最低点为 −b/2a，最佳的步伐就是 x0 到最低点之间的距离 |x0+b2a|，也可以写成 |2ax0+b|/2a。而刚好 |2ax0+b| 就是方程绝对值在x0这一点的微分。

这样可以认为如果算出来的微分越大，则距离最低点越远。而且最好的步伐和微分的大小成正比。所以如果踏出去的步伐和微分成正比，它可能是比较好的。

结论1-1：梯度越大，就跟最低点的距离越远。

这个结论在多个参数的时候就不一定成立了。

上图左边是两个参数的损失函数，颜色代表损失函数的值。如果只考虑参数 w1w1，就像图中蓝色的线，得到右边上图结果；如果只考虑参数 w2，就像图中绿色的线，得到右边下图的结果。确实对于a和b，结论1-1是成立的，同理c和b也成立。但是如果对比a和c，就不成立了，c比a大，但c距离最低点是比较近的。

所以结论1-1是在没有考虑跨参数对比的情况下，才能成立的。所以还不完善。

之前说到的最佳距离|2ax0+b|/2a，还有个分母 2a 。对function进行二次微分刚好可以得到：

所以这才是最好的步伐。

Tip2： Stochastic Gradient Descent

SGD 是看到一个样本就取一个样本出来，然后计算loss，接着计算这一个样本的参数的GD

Tip3： Feature Scaling

假设函数有两个特征值(Feature) 函数方程为： y = b + w1x1 +w2x2

如果x1的值都比较小，x2的值都比较大，那么 x2 对于 y 的值影响很大

坐标系中是两个参数的error surface（现在考虑左边蓝色），因为 w1 对y的变化影响比较小，所以 w1 对损失函数的影响比较小，w1对损失函数有比较小的微分，所以 w1 方向上是比较平滑的。同理 x2 对y 的影响比较大，所以 x2 对损失函数的影响比较大，所以在 x2 方向有比较尖的峡谷。

下图右边是两个参数scaling比较接近，右边的绿色图就比较接近圆形。

对于左边的情况，上面讲过这种狭长的情形不过不用Adagrad的话是比较难处理的，两个方向上需要不同的学习率，同一组学习率会搞不定它。而右边情形更新参数就会变得比较容易。左边的梯度下降并不是向着最低点方向走的，而是顺着等高线切线法线方向走的。但绿色就可以向着圆心（最低点）走，这样做参数更新也是比较有效率（如果这里有问题请参考MIT多变量微积分的课程：梯度，方向导数）