导数、偏导数、方向导数、梯度、梯度下降

作者: 逃淘桃 | 来源:发表于2020-02-06 18:23 被阅读0次

导数、偏导数、方向导数、梯度、梯度下降
导数、偏导数、方向导数、梯度、梯度下降
导数，偏导数，导数方向，梯度
梯度下降和上升
导数、偏导数、梯度
梯度下降
深度学习应用到的数学知识
数学梯度下降—Apple的学习笔记
6-3_3 方向导数与梯度
考研数学之边角知识点

原作者：WangBo_NLPR 原文：https://blog.csdn.net/walilk/article/details/50978864
原作者：Eric_LH 原文：https://blog.csdn.net/eric_lh/article/details/78994461

前言

机器学习中的大部分问题都是优化问题，而绝大部分优化问题都可以使用梯度下降法处理，那么搞懂什么是梯度、什么是梯度下降法就非常重要！这是基础中的基础，也是必须掌握的概念！
提到梯度，就必须从导数（derivative）、偏导数（partial derivative）和方向导数（directional derivative）讲起，弄清楚这些概念，才能够正确理解为什么在优化问题中使用梯度下降法来优化目标函数，并熟练掌握梯度下降法（Gradient Descent）。
文章小节安排如下：
1.导数
2.导数和偏导数
3.导数和方向导数
4.导数和梯度
5.梯度下降法

导数

一张图读懂导数和微分：

这是高数中的一张经典图。
导数的定义如下：

导数的定义反映的是函数在某一处沿轴正方向的变化率。再强调一遍，是函数 $f(x)$ 在 $x$ 轴上某一点处沿着 $x$ 轴正方向的变化率/变化趋势。直观来看，也就是在 $x$ 轴上某一点处，如果 $f'(x)>0$ ，说明 $f(x)$ 的函数值在 $x$ 点沿 $x$ 轴正方向是趋于增加；如果 $f'(x)<0$ ,说明 $f(x)$ 的函数值在 $x$ 点沿 $x$ 轴正方向是趋于减少的。
这里补充上图中的等符号的意义及关系如下：
:的变化量；
:的变化量趋于0时，则记做微元;
:,是函数的增量；
:，是切线的增量；
当时，和都是无穷小，是的主部，即

导数和偏导数

偏导数的定义如下：
$\frac {\partial } {\partial x_f} f(x_0,x_1,...,x_n)=\lim_{\Delta x \rightarrow 0} \frac{\Delta y} {\Delta x} = \lim_{\Delta x \rightarrow 0} \frac {f(x_0, ..., x_j + \Delta x, ... ,x_n)-f(x_0,...,x_j,...,x_n)} {\Delta x}$
可以看到，导数与偏导数本质是一致的，都是当自变量的变化趋于0时，函数值的变化量与自变量变化量比值的极限。直观来说，偏导数也是函数在某一点上沿坐标轴正方向的变化率。
区别在于：
导数，指的是一元函数中，函数 $y=f(x)$ 在某一处沿 $x$ 轴正方向的变化率；
偏导数，指的是多元函数中，函数 $y=f(x_1,x_2,...,x_n)$ 在某一点处沿着某一坐标轴 $(x_1,x_2,...,x_n)$ 正方向的变化率。

导数与方向导数

方向导数的定义如下：
$\frac {\partial} {\partial l}f(x_0,x_1,...,x_n)=\lim_{\rho \rightarrow 0} \frac {\Delta y} {\Delta x} = \lim_{\rho \rightarrow 0} \frac {f(x_0+\Delta x_0, ..., x_j+\Delta x_j, ..., x_n + \Delta x_n) - f(x_0, ...,x_j...,x_n)} {\rho}$
$\rho = \sqrt {(\Delta x_0)^2+...+(\Delta x_j)^2+...+(\Delta x_n)^2}$
在前面导数和偏导数的定义中，均是沿坐标轴正方向讨论函数的变化率。那么当我们讨论函数沿任意方向的变化率时，也就引出了方向导数的定义，即：某一点在某一趋近方向上的导数值。
通俗的解释是：
我们不仅要知道函数在坐标轴正方向上的变化率（即偏导数），而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。

导数和梯度

梯度的定义如下：
$gradf(x_0,x_1,...,x_n)=(\frac {\partial f} {\partial x_0},...,\frac {\partial f} {\partial x_j}, ..., \frac {\partial f} {\partial x_n})$
梯度的提出职位回答一个问题：
函数在变量空间的某一点处，沿着哪一方向有最大的变化率？
梯度定义如下：
函数在某一点的梯度是这样一个向量，它的方向与取得最大方向导数的方向一致，而它的模为方向导数的最大值。
这里需要注意三点：
1）梯度是一个向量，即有方向有大小；
2）梯度的方向是最大方向导数的方向；
3）梯度的模是最大方向导数的值。

导数与向量

提问：导数与偏导数与方向导数是向量么？
向量的定义是有方向（direction）和大小（magnitude）的量。
从前面的定义可以这样看出，偏导数和方向导数表达的是函数在某一点沿某一个方向的变化率，也是具有方向和大小的。因此从这个角度理解，我们可以把偏导数和方向导数看作是一个向量，向量的方向就是变化率的方向，向量的模就是变化率的大小。
那么沿着这样一种思路，就可以如下理解梯度：
梯度即函数在某一点最大的方向导数，函数沿梯度方向函数有最大的变化率。

梯度下降法

既然在在变量空间的某一点处，函数沿梯度方向局域最大的变化率，那么在优化目标函数的时候，自然是沿着负梯度方向去减少函数值，以此来达到我们的优化目标。
如何沿着负梯度方向减少函数值呢？既然梯度是偏导数的集合，如下：
$gradf(x_0,x_1,...,x_n)=(\frac {\partial f} {\partial x_0},...,\frac {\partial f} {\partial x_j}, ..., \frac {\partial f} {\partial x_n})$
同时梯度和偏导数都是向量，那么参考向量运算法则，我们在每个变量轴上减少对应变量值即可，梯度下降法可以描述如下：
$Repeat \{ x_0 : = x_0 - \alpha \frac{\partial f} {\partial x_o} \\ ........ \\ x_j := x_j - \alpha \frac{\partial f}{\partial x_j} \\ ........\\ x_n:=x_n - \alpha \frac{\partial f} {\partial x_n} \}$
以上就是提嘟嘟下降法的由来，大部分的机器学习任务，都可以利用 $Gradient Descent$ 来进行优化。

总结

概念	物理意义
导数	函数在该点的瞬时变化率
偏导数	函数沿坐标轴方向的变化率
方向导数	函数在某点沿某一特定方向的变化率
梯度	函数在某一点沿梯度方向变化率最大

导数、偏导数、方向导数、梯度、梯度下降
原作者：WangBo_NLPR 原文：https://blog.csdn.net/walilk/article/d...
导数、偏导数、方向导数、梯度、梯度下降
导数设有一元函数则函数在点处的导数为求出来的值是在处沿方向的变化率即也是在处的...
导数，偏导数，导数方向，梯度
导数导数反应的变化率：一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数...
梯度下降和上升
在介绍梯度概念之前，首先需要引入偏导数和方向偏导数的概念，偏导数：所谓偏导数，简单来说是对于一个多元函数，选定...
导数、偏导数、梯度
1. 导数数学定义image.png 几何意义如果函数是曲线，那么导数就是切线的斜率。如果函数是曲面，那么导数就...
梯度下降
我的理解：求优化命题的解梯度：是高维空间的各个方向的变量导数导数：一维时的梯度下降：一般为求最小值用到导数对应方...
深度学习应用到的数学知识
导数导数的定义导数的基本求导法则传送门梯度和Hessian矩阵一阶导数和梯度(gradient vecto...
数学梯度下降—Apple的学习笔记
一，梯度下降算法摘要步长就是a,也叫学习速率。偏导数就是梯度，下降最快的方向合适的学习速率α应该是每一次迭...
6-3_3 方向导数与梯度
方向导数三元函数方向导数梯度 3 数量场与向量场简介略
考研数学之边角知识点
一、散度，旋度，梯度，方向导数梯度——向量 grad 方向导数——带方向的数散度——分别求导后的数相加之和 d...