梯度下降算法

作者: 飘涯 | 来源:发表于2018-02-23 11:00 被阅读76次

深入浅出--梯度下降法及其实现
浅谈神经网络中的梯度爆炸问题
多层神经网络，从零开始——（九）、优化函数
总结那些常用的优化方法
11 回归算法 - BGD、SGD、MBGD梯度下降
1.2梯度下降算法
笔记6-Deep learning and backpropag
梯度下降算法
机器学习——梯度下降、梯度下降的线性回归算法
一维梯度下降算法

最优化算法的一种，解决无约束优化问题，用递归来逼近最小偏差的模型。
关于梯度的概念可参见以前的文章：
从方向导数到梯度
梯度下降法迭代公式为：

image.png

x为需要求解的值，s为梯度负方向，α为步长又叫学习率
缺点：靠近极小值的时候收敛速度比较慢；可能会”之字形”的下降；不太适合处理比较复杂的非线性函数问题。

实例：
用梯度下降的迭代算法，来逼近函数y=x**2的最值
代码如下：

import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl

def f(x):
    return x**2
def h(x):
    return 2*x
X=[]
Y=[]

x=2
step=0.8
f_change=f(x)
f_current=f(x)
X.append(x)
Y.append(f_current)
while f_change>np.e**-10:
    x=x-step*h(x)
    tmp=f(x)
    f_change=np.abs(f_current-tmp)
    f_current=tmp
    X.append(x)
    Y.append(f_current)
print(X)
print(Y)
print(x,f_current)
fig = plt.figure()
a=np.arange(-2.15,2.15,0.05)
b=a**2
plt.plot(a,b)
plt.plot(X,Y,"ro--")
plt.show()

运行结果如下：

image.png

假如目标函数有未知参数的情况，步骤如下：

image.png
如何选择梯度下降的步长和初始值
不同的步长得表现：

image.png
image.png
学习率的选择：学习率过大，表示每次迭代更新的时候变化比较大，有可能会跳过最优解；学习率过小，表示每次迭代更新的时候变化比较小，就会导致迭代速度过慢，很长时间都不能结
算法初始参数值的选择：初始值不同，最终获得的最小值也有可能不同，因为梯度下降法求解的是局部最优解，所以一般情况下，选择多次不同初始值运行算法，并最终返回损失函数最小情况下的结果值

深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...
11 回归算法 - BGD、SGD、MBGD梯度下降
=== 名词解释 === BGD：批量 - 梯度下降算法SGD：随机 - 梯度下降算法MBGD：小批量...
1.2梯度下降算法
梯度下降算法梯度下降算法可将代价函数最小化。在梯度下降算法在不停地一点点改变和，试图通过这种改变使得变小，直到...
笔记6-Deep learning and backpropag
优化算法：梯度下降，反向传播（BP）是梯度下降实现方法之一。
梯度下降算法
1. 三种梯度下降算法： Batch Gradient Descent：全部样本梯度下降一次，批梯度下降每次更新...
机器学习——梯度下降、梯度下降的线性回归算法
一、梯度下降****梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θo,θ1)的最...
一维梯度下降算法
一维梯度下降算法