【梯度下降法】一：快速教程、Python简易实现以及对学习率的探

作者: monitor1379 | 来源:发表于2016-10-11 23:55 被阅读1946次

【梯度下降法】一：快速教程、Python简易实现以及对学习率的探
Python梯度下降法
最速梯度下降
2019-03-24
深度学习优化算法
2020-08-19--梯度下降法01
统计学习方法2.2-4.1 笔记
机器学习学习笔记（六）梯度下降法
4.梯度下降法&&随机梯度下降法
python实现梯度下降法

前言

梯度下降法（Gradient Descent）是机器学习中最常用的优化方法之一，常用来求解目标函数的极值。

其基本原理非常简单：沿着目标函数梯度下降的方向搜索极小值（也可以沿着梯度上升的方向搜索极大值）。

但是如何调整搜索的步长（也叫学习率，Learning Rate）、如何加快收敛速度以及如何防止搜索时发生震荡却是一门值得深究的学问。接下来本文将分析第一个问题：学习率的大小对搜索过程的影响。全部源代码可在本人的GitHub:monitor1379中下载。

快速教程

前言啰嗦完了，接下来直接上干货：如何编写梯度下降法。代码运行环境为Python 2.7.11 + NumPy 1.11.0 + Matplotlib 1.5.1。

首先先假设现在我们需要求解目标函数func(x) = x * x的极小值，由于func是一个凸函数，因此它唯一的极小值同时也是它的最小值，其一阶导函数为dfunc(x) = 2 * x。

import numpy as np
import matplotlib.pyplot as plt

# 目标函数:y=x^2
def func(x):
    return np.square(x)


# 目标函数一阶导数:dy/dx=2*x
def dfunc(x):
    return 2 * x

接下来编写梯度下降法函数：

# Gradient Descent
def GD(x_start, df, epochs, lr):
    """
    梯度下降法。给定起始点与目标函数的一阶导函数，求在epochs次迭代中x的更新值
    :param x_start: x的起始点
    :param df: 目标函数的一阶导函数
    :param epochs: 迭代周期
    :param lr: 学习率
    :return: x在每次迭代后的位置（包括起始点），长度为epochs+1
    """
    xs = np.zeros(epochs+1)
    x = x_start
    xs[0] = x
    for i in range(epochs):
        dx = df(x)
        # v表示x要改变的幅度
        v = - dx * lr
        x += v
        xs[i+1] = x
    return xs

需要注意的是参数df是一个函数指针，即需要传进我们的目标函数一阶导函数。

测试代码如下，假设起始搜索点为-5，迭代周期为5，学习率为0.3：

def demo0_GD():
    x_start = -5
    epochs = 5
    lr = 0.3
    x = GD(x_start, dfunc, epochs, lr=lr)
    print x
    # 输出：[-5.     -2.     -0.8    -0.32   -0.128  -0.0512]

继续修改一下demo0_GD函数以更加直观地查看梯度下降法的搜索过程：

def demo0_GD():
    """演示如何使用梯度下降法GD()"""
    line_x = np.linspace(-5, 5, 100)
    line_y = func(line_x)

    x_start = -5
    epochs = 5

    lr = 0.3
    x = GD(x_start, dfunc, epochs, lr=lr)

    color = 'r'
    plt.plot(line_x, line_y, c='b')
    plt.plot(x, func(x), c=color, label='lr={}'.format(lr))
    plt.scatter(x, func(x), c=color, )
    plt.legend()
    plt.show()

从运行结果来看，当学习率为0.3的时候，迭代5个周期似乎便能得到蛮不错的结果了。

demo0_GD运行结果

梯度下降法确实是求解非线性方程极值的利器之一，但是如果学习率没有调整好的话会发生什么样的事情呢？

学习率对梯度下降法的影响

在上节代码的基础上编写新的测试代码demo1_GD_lr，设置学习率分别为0.1、0.3与0.9：


def demo1_GD_lr():
    # 函数图像
    line_x = np.linspace(-5, 5, 100)
    line_y = func(line_x)
    plt.figure('Gradient Desent: Learning Rate')

    x_start = -5
    epochs = 5

    lr = [0.1, 0.3, 0.9]

    color = ['r', 'g', 'y']
    size = np.ones(epochs+1) * 10
    size[-1] = 70
    for i in range(len(lr)):
        x = GD(x_start, dfunc, epochs, lr=lr[i])
        plt.subplot(1, 3, i+1)
        plt.plot(line_x, line_y, c='b')
        plt.plot(x, func(x), c=color[i], label='lr={}'.format(lr[i]))
        plt.scatter(x, func(x), c=color[i])
        plt.legend()
    plt.show()

从下图输出结果可以看出两点，在迭代周期不变的情况下：

学习率较小时，收敛到正确结果的速度较慢。
学习率较大时，容易在搜索过程中发生震荡。

demo1_GD_lr运行结果

综上可以发现，学习率大小对梯度下降法的搜索过程起着非常大的影响，为了解决上述的两个问题，接下来的博客《【梯度下降法】二：冲量（momentum）的原理与Python实现》将讲解冲量（momentum）参数是如何在梯度下降法中起到加速收敛与减少震荡的作用。

【梯度下降法】一：快速教程、Python简易实现以及对学习率的探
前言梯度下降法（Gradient Descent）是机器学习中最常用的优化方法之一，常用来求解目标函数的极值。 ...
Python梯度下降法
本文主要讲解梯度下降算法，以及Python的实现一个简单的例子梯度下降法又称为最速下降法，是 1847 年有数学...
最速梯度下降
梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的...
2019-03-24
学习率的调整从梯度下降算法的角度来说，通过选择合适的学习率，可以使梯度下降法得到更好的性能。学习率，即参数到达最...
深度学习优化算法
基于梯度下降法 Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权...
2020-08-19--梯度下降法01
梯度下降法简介多元线性回归中的梯度下降法随机梯度下降法梯度下降法的调试 1.梯度下降法简介不是一个机器学...
统计学习方法2.2-4.1 笔记
2.2 感知机 -- 准备知识：梯度下降法梯度下降法是求解无约束问题的最常用方法最大变化率是梯度大小，也就是梯...
机器学习学习笔记（六）梯度下降法
基础（1）梯度下降法本身不是一个机器学习算法（2）梯度下降法是一种基于搜索的最优化方法（3）梯度下降法的作用...
4.梯度下降法&&随机梯度下降法
梯度下降法&&随机梯度下降法梯度下降法需要计算全量的训练样本的损失函数的均值，然后更新一次权重，学习速度比较慢。...
python实现梯度下降法
梯度下降法梯度定义梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该...