美文网首页
无约束条件的参数优化(1)--梯度下降算法

无约束条件的参数优化(1)--梯度下降算法

作者: 安帅帅 | 来源:发表于2018-06-26 20:06 被阅读36次

为什么要学习最优化理论?

因为对于ML模型训练,最终都可以归结为最优化问题,寻找最优参数,是模型的loss最小。

在ML中,最优化分为 无约束的最优化问题有约束的最优化问题

一、无约束的最优化问题

由极值条件可知,函数的极小值问题,可转化为:

由于在多维空间中,以上表达式是n个原方程组问题,求解过程较为复杂。在ML领域,求解最优化问题,往往通过迭代法。

迭代法的基本思想是:首先给定极小值点的初始估计x0,通过迭代得到点序列,若点序列无限接近极小值点,称该序列是极小化序列。

如何将最优化转化为极小化序列?表达式如下:

其中,dk是方向,另一个是步长。这是各种梯度下降算法的普遍抽象。

二、梯度下降算法

梯度下降算法的迭代方向d有函数f的一阶导数决定。

首先回顾梯度的几何意义:梯度向量表示函数f在x0出函数值变化最快的方向。

梯度下降算法分为:BGD、SGD、MBGD。

使用MBGD,一般的n的范围是50-100之间。

对于梯度下降方向d和步长而言,主要有算法 传统更新策略、、动量更新策略、动量更新策略、改进的动量更新策略和自适应梯度策略。

1.传统更新策略

缺点:一方面极易受lr的影响;另一方面,若迭代的化太小,会提前终止迭代操作。在传统更新策略中,每一次迭代的方向dk=当前batch数据集误差损失函数的梯度。

2.动量更新策略

本策略主要是对每一次的迭代方向dk做迭代。

在每次迭代优化dk,有两部分组成:上衣时刻的迭代方向,即:动量;当前样本集合的梯度方向,公式如下:

第一部分表示动量,第二部分表示当前样本的梯度方向。前者是上一batch的前进方向,后者是当前batch的前进方向。在每一次迭代中,向量方向是上一次迭代方向与当前样本梯度方向的向量之和。

3.改进动量更新策略(NAG)

该公式的含义是:先经过动量计算使上一次的参数沿原来梯度到达新的点,然后在新的点沿新的梯度方向前进。

4.自适应梯度策略(AdaGrad)

数学表达式如下:

其中,acci表示累计梯度,参数是第i次迭代时的参数。由表达式可知:AdaGrad实现了学习率的变化,并且迭代次数越多,步长越短。

相关文章

  • 梯度下降求解线性回归

    什么是梯度下降?在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最...

  • 机器学习-梯度下降算法

      在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降算法(Gradient Descent Algori...

  • 梯度下降

    梯度下降(Gradient Descent)是在求解机器学习算法的模型参数(无约束优化问题)时,最常采用的方法之一...

  • 机器学习 | 优化——梯度下降(Gradient Descent

    写在前面: 在求解机器学习算法的模型参数,即 无约束优化问题 时,梯度下降(Gradient Descent)是最...

  • 无约束条件的参数优化(1)--梯度下降算法

    为什么要学习最优化理论? 因为对于ML模型训练,最终都可以归结为最优化问题,寻找最优参数,是模型的loss最小。 ...

  • 知识点

    优化方法 梯度下降 梯度下降是一种优化算法,通过迭代的方式寻找模型的最优参数; 所谓最优参数指的是使目标函数达到最...

  • 2021-03-24掌握回归模型的评估及超参数调优

    1.参数与超参数 参数:使用最小二乘法或者梯度下降法等最优化算法优化出来的数, 超参数:无法使用最小二乘法或者梯度...

  • 梯度下降法

    梯度下降法,又称“最速下降法”,是机器学习领域最常用的优化算法之一,适用于各种无约束的优化问题。 下面我们简单叙述...

  • 笔记(二)梯度下降与反向传播算法

    梯度下降算法 基于梯度的优化是优化一个函数的最终取值。输入参数,需要优化的函数是,基于梯度的优化即通过改变使得最大...

  • 02 SVM - 拉格朗日乘子法

    01 SVM - 概述 自变量无约束的求极值方法 - 梯度下降法 10 回归算法 - 梯度下降在线性回归中的应用1...

网友评论

      本文标题:无约束条件的参数优化(1)--梯度下降算法

      本文链接:https://www.haomeiwen.com/subject/cqnmyftx.html