实验课之神奇的梯度下降算法

作者: PrivateEye_zzy | 来源:发表于2017-10-26 16:50 被阅读0次

实验课之神奇的梯度下降算法
深入浅出--梯度下降法及其实现
浅谈神经网络中的梯度爆炸问题
多层神经网络，从零开始——（九）、优化函数
总结那些常用的优化方法
11 回归算法 - BGD、SGD、MBGD梯度下降
1.2梯度下降算法
笔记6-Deep learning and backpropag
机器学习——梯度下降、梯度下降的线性回归算法
Stochastic Gradient Descent vs B

之前写过的一元线性回归的基本原理一文中提及到梯度下降算法，我们用最小二乘法配合梯度下降算法来分析了线性回归的数学原理，但是怎么去优化梯度下降算法呢？

本文我们将来做几个不同策略的实验，既然是实验，那么和我们大学做物理实验一样，也需要记录，调整参数

我们知道梯度下降算法是机器学习中常用来迭代求解目标函数极值的，那么所谓的优化，其实就是分析如何加速算法的收敛，以及在收敛过程中如何防止其发生震荡

本文知识点：

1. 学习率因子

2. 冲量因子

3. 衰减因子

第一个实验：学习率因子对搜索过程的影响

我们知道在梯度下降过程中，我们通过定义学习率来表示每一次迭代下滑的距离，我们用learn_rate来表示，那么通过参数的梯度和学习率，参数的更新公式为：

梯度下降法更新参数

对于这个式子，我们还可以用经典物理运动学去加以理解，我们在研究一个变速运动时，因为加速度是非线性变化的，所以我们用vt表示当前时刻为t的瞬时速度，那么在下个t+1时刻，速度产生的变化是速度的微元dv，那么下个时刻（幅度）的瞬时速度就可以表示为：

瞬时速度的表达式

现在开始做第一个实验，我们假设目标函数F(x) = x * x + 2 * x + 10，初中生都知道这是一个凸函数，存在极小值且极小值也是最小值，其一阶导数为F'(x) = 2 * x + 2

通过导数知识，我们知道F(x)在x = -1处取得极小值（最小值），且极小值为9

下图是带学习率因子的梯度下降法，我们将学习率作为参数变量传递进来

学习率因子

现在我们初始搜索点在-5处，迭代周期为10来做梯度下降，然后分别设置不同的学习率为0.1，0.3，0.9来观察实验结果：

不同的学习率因子实验结果

从上图结果中，我们可以看到学习率设置为0.1和0.3的时候，收敛效果都不错，可以在迭代周期内逼近极值点，可是当学习率设置为0.9的时候，却发生了持续震荡，导致不友好的搜索结果

至此，我们可以总结出在迭代周期不变的情况下：

如果学习率较小，收敛到正确结果的速度会比较慢

如果学习率较大，容易在搜索过程中发生震荡

那么怎么有效的加速收敛和防止震荡呢？那就引出下面第二个实验

第二个实验：冲量法

冲量是一个过程量，来自于经典物理学，表示一个随时间改变的力对时间的累积效应，即力对时间的积分

我们知道在普通的梯度下降过程中，每次参数x的更新量与学习率和梯度下降量有关系，如果我们想让收敛过程加快，那么我们需要让参数x的更新量做相应的加速运动；如果我们想防止减少震荡的频率，那么我们需要让参数x的更新量做相应的减速运动

我们使用冲量的定义，在每次迭代更新过程中，将参数的更新增量v，考虑为自身的梯度下降量dv，和上一次的更新量v乘以一个介于[0，1]之间的因子momentum产生的时间累积冲量p来求和，则最终增量v可以表示为 dv + p，其中p = v * momentum，同样momentum因子我们作为参数传递进来

冲量因子

为了研究不同的冲量因子在不同的学习率下的表现，我们将学习率和冲量因子分别设置为learnRate = [0.01, 0.1, 0.6, 0.9]和momentum = [0.0, 0.1, 0.5, 0.9]，初始搜索点在-5处，迭代周期为10来做梯度下降实验

不同的冲量因子实验结果

上图中，每一行代表在相同的学习率下，不同的冲量因子对梯度收敛的影响，其中最左侧表示不考虑冲量因子

至此，我们可以总结出在迭代周期不变的情况下：

当学习率比较小时，适当的冲量因子可以对收敛过程起到加速的作用

当学习率比较大时，适当的冲量因子可以减小震荡的频率

当冲量因子较大时，原本能够正确收敛的结果会偏离结果，造成刹不住车而跑过头

那么怎么解决这个刹不住车的新问题呢，那就引出下面第三个实验

第三个实验：学习率衰减因子

为了研究如何加速收敛以及如何防止搜索过程中发生震荡，我们引入了调整学习率，和使用冲量的原理来加速或减速收敛过程，但是冲量原理会使得收敛过快从而偏离最优结果，为了解决这个问题，接下来我们继续研究第三个超参数：衰减

从上面两个实验可以看出，当学习率较大的时候，容易发生震荡，根本原因无非就是搜索的幅度太大

可以试想，如果在迭代过程中，我们期望每次下滑的幅度都在不断的变慢，直到趋于0不再下滑，即学习率的大小随着迭代周期的变化而不断衰减，那么就可以不断减少震荡的频率。故伴随着学习率learnRate的衰减因子decay由此诞生，decay的作用就是不断的衰减learnRate

学习率衰减因子

我们定义decay介于[0.0，1.0]之间，i表示迭代的次数，从公式上可以看出：

当decay>0时，learnRate属于减函数

当decay=0时，learnRate保持不变

decay越小，learnRate衰减的越慢，做加速度减小的加速运动

decay越大，learnRate衰减的越快，做加速度递增的加速运动

我们在迭代过程中，保证学习率均在衰减，同样为了研究不同的衰减因子的影响，我们把decay作为参数传递进来

学习率衰减因子

为了研究不同的学习率衰减因子在不同的学习率下的表现，我们将学习率和学习率衰减因子分别设置为learnRate = [0.1，0.3，0.9，0.99]和decay= [0.0，0.01，0.5，0.9]，初始搜索点在-5处，迭代周期为10来做梯度下降实验

不同的衰减因子实验结果

至此，我们可以总结出在迭代周期不变的情况下：

decay越大，学习率衰减的越快

当学习率较大时候，震荡的频率和decay的增加成反比，即decay确实可以减缓震荡

当decay设置过大，可能会造成提前收敛，从而没有达到极值点

总结一下这三个超参数实验：

由于在大多情况下，我们无法用现有的数学知识直接解出导数方程的极值点，所以我们利用计算机高性能的算力，使用梯度下降法去迭代出原函数的极值点来优化原函数

而整个梯度下降过程中，算法的收敛受到三个超参数—学习率，冲量因子和学习率衰减因子作用的影响

适当的参数组合，可以让算法收敛的速度加快，而且不容易发生震荡

和做物理实验一样，调参过程，任重而道远！

实验代码地址

实验课之神奇的梯度下降算法
之前写过的一元线性回归的基本原理一文中提及到梯度下降算法，我们用最小二乘法配合梯度下降算法来分析了线性回归的数学原...
深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...
11 回归算法 - BGD、SGD、MBGD梯度下降
=== 名词解释 === BGD：批量 - 梯度下降算法SGD：随机 - 梯度下降算法MBGD：小批量...
1.2梯度下降算法
梯度下降算法梯度下降算法可将代价函数最小化。在梯度下降算法在不停地一点点改变和，试图通过这种改变使得变小，直到...
笔记6-Deep learning and backpropag
优化算法：梯度下降，反向传播（BP）是梯度下降实现方法之一。
机器学习——梯度下降、梯度下降的线性回归算法
一、梯度下降****梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θo,θ1)的最...
Stochastic Gradient Descent vs B
梯度下降是最小化风险函数/损失函数的一种经典常见的方法，下面总结下三种梯度下降算法异同。 1、批量梯度下降算法（...