梯度下降法极速复习笔记

作者: 吴金君 | 来源:发表于2018-07-29 17:38 被阅读62次

梯度下降法极速复习笔记
2020-08-19--梯度下降法01
Lecture 3 Gradient Descent
梯度下降法
学习笔记：两种梯度下降法的思考
最速梯度下降
神经网络优化2
2019-03-17神经网络——optimizer
2019-11-01第二课二周优化算法
DL中的各种优化器

1.动机

在机器学习或者深度学习中，我们经常会遇到一些最优化问题，往往是最大化或者最小化一个函数 $f(x)$ 。我们一般把需要优化的函数称为目标函数、准则、代价函数、损失函数或者误差函数。这些术语都可以表示待优化函数 $f(x)$ ，可能在不同的书里，他们的称呼都不一样。
我们通常会怎么做呢？通常会解决这样一个问题：
$x^*=arg\min{f(x)}$
意思是我们需要找到一个 $x$ 值，使得函数 $f(x)$ 能够最小化。梯度下降法要解决的事情就是一步一步地找到合适的 $x$ ，使得函数 $f(x)$ 最终能够达到最小。

2.梯度下降的思想

回忆高数里的导数和微分的知识。导数 $f'(x)$ 就是函数 $f(x)$ 在点 $x$ 处的斜率。如果函数 $f(x)$ 在 $x$ 的定义域内处处可导，那么就对于任何一个点 $x^*$ 都存在一个 $\epsilon$ 使得:
$f(x^*+\epsilon)\approx f(x^*)+\epsilon f'(x^*)$
假设 $\epsilon f'(x)$ 为正，那么 $f(x^*+\epsilon)$ 相比于 $f(x^*)$ 就多出来了 $\epsilon f'(x^*)$ 大小的值。对于函数 $f(x)$ 而言， $f(x^*+\epsilon)\geqslant f(x^*)$ .
$\begin{aligned} f(x^*_n+\epsilon)& \approx f(x^*_n)+\epsilon f'(x^*_n) \Rightarrow f(x^*_n+\epsilon)\geqslant f(x^*_n)\\ let \ \ x^*_{n+1}=x^*_n+\epsilon,&\ and\ rewrite:\\ f(x^*_{n+1})&\approx f(x^*_{n})+\epsilon f'(x^*_{n}) \Rightarrow f(x^*_{n+1})\geqslant f(x^*_n)\\ \end{aligned}$
我们利用这个规律继续迭代呢？
$\begin{aligned} f(x^*_{n+1})&\approx f(x^*_{n})+\epsilon f'(x^*_{n}) \Rightarrow f(x^*_{n+1})\geqslant f(x^*_n)\\ f(x^*_{n+2})&\approx f(x^*_{n+1})+\epsilon f'(x^*_{n+1}) \Rightarrow f(x^*_{n+2})\geqslant f(x^*_{n+1})\\ ............\\ f(x^*_{n+i})&\approx f(x^*_{n+i-1})+\epsilon f'(x^*_{n+i-1}) \Rightarrow f(x^*_{n+i})\geqslant f(x^*_{n+i-1})\\ \end{aligned}$
假设 $f(x^*_{n+i-1})$ 达到了最小值或者达到了收敛条件，那么我们的梯度下降法就完成了它的任务。

3.梯度下降法中的学习率和梯度向量

通过上面的例子应该能大概理解梯度下降的思想，但实际应用中，不会有如此简单的情况。为了彻底搞清楚梯度下降法，还需要明白两个概念，那就是梯度下降的学习率和梯度向量。我们用一个新的式子来描述梯度下降中的参数更新：
$x'=x-\epsilon \nabla_x f(x)$
其中， $x'$ 表示每次更新后的参数， $x$ 表示更新前的参数， $\epsilon$ 表示学习率， $\nabla_x f(x)$ 表示梯度方向。
学习率：确定了参数更新过程中的步长大小，是一个正标量。
梯度方向：确定了函数 $f(x)$ 下降最快的方向，如在二次函数中 $f(x)$ 在某个点 $x$ 处的梯度，就是使得该点处函数值变化最大。在梯度下降法中，为了使得目标函数值更小，我们常沿着负梯度方向更新参数。(前面举的例子中，为了简洁明了地说明梯度下降法的思想，没有提到负梯度这回事)

梯度下降法极速复习笔记
1.动机在机器学习或者深度学习中，我们经常会遇到一些最优化问题，往往是最大化或者最小化一个函数。我们一般把需要优...
2020-08-19--梯度下降法01
梯度下降法简介多元线性回归中的梯度下降法随机梯度下降法梯度下降法的调试 1.梯度下降法简介不是一个机器学...
Lecture 3 Gradient Descent
先来复习一下梯度下降法。一张图复习一下Lecture1 的 gradient descent：每次移动的方向都...
梯度下降法
梯度下降法本文主要是为了讲解梯度下降法的原理和实践，至于什么是梯度下降法，他能做什么，相信百度一下你就都知道...
学习笔记：两种梯度下降法的思考
在看梯度下降法的时候最初还真没看明白两种梯度下降法的区别，于是昨天散步的时候认真的思考了一下。两种梯度下降法分别...
最速梯度下降
梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的...
神经网络优化2
梯度下降梯度下降法批梯度下降法（Batch Gradient Descent，BGD）是最常用的梯度下降形式，...
2019-03-17神经网络——optimizer
神经网络优化算法，通常有三种：小批量梯度下降法，随机梯度下降法和批量梯度下降法。小批量梯度下降法适用于训练数据...
2019-11-01第二课二周优化算法
指数加权平均：动量梯度下降法： RMSprop：和动量梯度下降法相似 adam优化算法：将动量梯度下降法和RMS...
DL中的各种优化器
学习笔记 BGD (Batch Gradient Decent)批量梯度下降法 SGD (Stochastic G...