美文网首页
第八章 梯度方法

第八章 梯度方法

作者: Xuang123 | 来源:发表于2019-06-18 10:33 被阅读0次

8.1 引言

梯度方法其实就是我们神经网络中的gradient decent,梯度下降。
首先回顾以下概念:
水平集
梯度
梯度是一个实值可微函数在某点处函数值增加最快的方向,它正交于经过改点的水平集。因此,梯度负方向是函数减少最快的方向,这应该是一个很好的搜索方向。
x^{(0)}作为初始搜索点,并沿着梯度负方向构建一个新点x^{(0)}-\alpha \nabla f(x^{(0)}),则可以推论出新点的函数值较原始点更优,证明如下:
由泰勒定理:
f(x^{(0)}-\alpha \nabla f(x^{(0)}) = f(x^{(0)})- \alpha||\nabla f(x^{(0)})||^2+o(\alpha)
因此,当\nabla f(x^{(0)}) \neq 0\alpha>0足够小时,可以保证:
f(x^{(0)}-\alpha \nabla f(x^{(0)}) < f(x^{(0)})
因此,我们可以获得如下迭代公式:
x^{(k+1)} = x^{(k)}-\alpha \nabla f(x^{(k)})
这种搜索过程中,梯度会不断变化,当接近极小点,梯度应趋近于0。所以这时候步长就很重要了。

8.2 最速下降法

最速下降法是梯度方法是一种具体实现。其理念为每次迭代选择合适的步长\alpha_k,是的目标函数能够得到最大程度的减小。
最速下降法的迭代流程为:每步迭代中,从当前迭代点x^{(k)}出发,沿着梯度负方向-\nabla f(x^{(k)}展开搜索,直到找到步长的最优结果,确定新的迭代点。
最速下降法的搜索方向是正交的,如图:

迭代点序列
命题8.1证明这一理论:
命题8.1:利用最速下降法搜索过程中产生的序列,那么,与正交对所有的成立。

迭代的可行性和停止标准
当然在实际运行中很难使梯度完全为0,因此一般计算梯度的范数,只需小于某个阈值即可。

8.3 梯度方法性质分析

收敛性
特大证明我赌不考。

相关文章

  • 第八章 梯度方法

    8.1 引言 梯度方法其实就是我们神经网络中的gradient decent,梯度下降。首先回顾以下概念:水平集梯...

  • 机器学习-常用优化方法

    一阶方法:梯度下降、随机梯度下降、mini 随机梯度下降降法。 随机梯度下降不但速度上比原始梯度下降要快,局部最优...

  • 深度学习大力丸-BatchNormalization

    为什么我们需要BN 回顾梯度下降 我们知道,神经网路的优化方法都是基于梯度下降的思想,简言之,梯度下降优化方法有这...

  • 图像处理小词典

    梯度/梯度算子:这里的梯度特指二维离散函数中的梯度,因此就不能用连续函数的算法计算,而是要用差分的方法。计算方法有...

  • 笔记6-Deep learning and backpropag

    优化算法:梯度下降,反向传播(BP)是梯度下降实现方法之一。

  • 梯度优化算法

    梯度下降,共轭梯度法;牛顿法,拟牛顿法;信赖域方法,罚函数法。

  • ML-梯度下降法求解线性回归

    梯度法 是基于搜索来最优化一个目标函数的方法。分为梯度下降法 和 梯度上升法 :梯度下降法 用来最小化一个损失函数...

  • 统计学习方法2.2-4.1 笔记

    2.2 感知机 -- 准备知识:梯度下降法 梯度下降法是求解无约束问题的最常用方法 最大变化率是梯度大小,也就是梯...

  • 深度学习——CNN(2)

    前言:CNN的优化方法依旧可以是梯度下降的方法,类似于BP算法中的反向传播,一般采用小批量梯度下降的方法,来更新参...

  • 梯度下降方法

    1.批量梯度下降每次遍历所有的样本对进行梯度更新,迭代次数较少,在样本数量较多的训练速度慢。2.随机梯度下降每次只...

网友评论

      本文标题:第八章 梯度方法

      本文链接:https://www.haomeiwen.com/subject/obltqctx.html