美文网首页
L-BFGS算法介绍

L-BFGS算法介绍

作者: 网易数帆 | 来源:发表于2018-12-14 16:15 被阅读30次

本文由作者林洋港授权网易云社区发布。

一、 L-BFGS是什么

L-BFGS是解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点,在机器学习各类算法中常有它的身影。简单的说,L-BFGS和梯度下降、SGD干的同样的事情,但大多数情况下收敛速度更快,这点在大规模计算中很重要。下图是深度学习Autoencoder模型不同优化方法的比较。

二、 L-BFGS“之前”的那些方法

这里的“之前”并不是说L-BFGS问世之前就已经存在的方法,而是指为了更好的理解L-BFGS需要了解的其他方法。无约束问题定义:

我们先从泰勒展开开始,这可以说是本文介绍的所有方法的基础。f在的一阶泰勒展开为

二阶泰勒展开为

去掉最后的余项,得到

2.1 最速下降法(Gradient descent)

CD算法的一个前提条件就是f在连续可微,并且在处的导数不为0。由公式1可知当第二项<0时f的值将下降。由Cauchy-Schwartz不等式可得

为最速下降方向。因此迭代公式为

满足

2.2 牛顿法(Newton method)

由于f的极值点就是满足f的导数为0,根据公式2,得到

假设Hesse矩阵可逆,由上式可得牛顿法迭代公式

牛顿法具有二次终止性的特点,即经过有限次迭代必达到极小点。例如,对于二次凸函数

A是对称正定矩阵,取任意初始点,根据公式3有

显然经过1次迭代即达到极值点。

但牛顿法要求f二次连续可微,并且Hesse矩阵满足可逆和正定两个条件;同时,牛顿方向不一定每次迭代都是下降方向。

阻尼牛顿法是牛顿法的修正,与牛顿法的区别是迭代公式增加了牛顿方向上的一维搜索,即

其中

是一维搜索得到的步长,满足

2.3 拟牛顿法(Quasi-Newton Method)

牛顿法每次迭代都需要计算处的Hesse矩阵的逆,同时Hesse矩阵也不一定是正定的。人们又提出了拟牛顿法,其基本思想是用不包含二阶导数的矩阵来近似Hesse矩阵的逆。f处展开成2阶泰勒级数并取近似,即

设Hesse矩阵可逆,可得

设近似矩阵为根据上述,必须满足

公式7称为拟牛顿条件。的不同构造方法,决定了不同的拟牛顿方法。

n阶对称正定矩阵时,满足牛顿条件的也必须是n阶对称正定矩阵。因此的一般构造策略为:取为任意n阶对称正定矩阵(通常为单位矩阵I),然后通过下式求出

称为校正矩阵。

DFP算法将校正矩阵定义为:

至此,根据公式45671011可以由得出并且不需要每次迭代计算Hesse矩阵。

BFGS算法用矩阵近似公式8中的Hesse矩阵,从而得到

qp互换,分别取代由DFP公式可以得到

,从而得到BFGS公式:

从公式11和公式12可以看出,拟牛顿法每次迭代只需要根据前次迭代的即可以计算出,不需要求出Hesse矩阵的逆。

2.4 L-BFGS(limited-memory BFGS)

BFGS算法中每次迭代计算需要前次迭代得到的矩阵,该矩阵的存储空间至少为N(N+1)/2N为特征维数,对于高维的应用场景,需要的存储空间将是非常巨大的。L-BFGS的基本思想就是通过存储前m次迭代的少量数据来替代前一次的矩阵。令y=q,s=p,公式12可以改写成

公式13展开并取前m项的近似,可得

由于ρVsy这些变量都最终可以由qp两个向量计算得到,因此,我们只需存储最后m次的qp向量即可算出加上对角阵H0,总共需要存储2*m+1个N维向量(实际应用中m一般取4到7之间的值,因此需要存储的数据远小于Hesse矩阵)。

注:公式4中步长的确定需要使用一维搜索,顾名思义,一维搜索就是沿着直线方向寻找使得目标函数值最小的参数值。一维搜索具体又分为精确一维搜索和非精确一维搜索,具体可参看相关文献。

三、 其他相关方法

由于L-BFGS是建立在目标函数的2阶泰勒展开基础上的,其前提条件就是函数的2阶导不为0。在机器学习中一般如果用L2正则都是可以满足这个条件的。如果用的是L1正则,则目标函数可能出现2阶导为0的情况。对于使用L1正则的情况,可以使用OWL-QN方法(Orthant-Wise Limited-memory Quasi-Newton),它是基于L-BFGS修改的。

据说百度首创了Shooting算法,收敛速度比L-BFGS快得多,目前还不知道怎么做的。


此外,Chih-Jen Lin(LIBSVM作者)提出的信赖域牛顿方法(Trust Region Newton Method),其收敛速度也比L-BGFS快,他开发的另一个针对大规模线性分类的软件LIBLINEAR用的就是这种优化方法。

此外,Chih-Jen Lin(LIBSVM作者)提出的信赖域牛顿方法(Trust Region Newton Method),其收敛速度也比L-BGFS快,他开发的另一个针对大规模线性分类的软件LIBLINEAR用的就是这种优化方法。

免费领取验证码、内容安全、短信发送、直播点播体验包及云服务器等套餐

更多网易技术、产品、运营经验分享请访问网易云社区

相关文章:
【推荐】 HBase基准性能测试报告

相关文章

  • L-BFGS算法介绍

    本文由作者林洋港授权网易云社区发布。 一、L-BFGS是什么 L-BFGS是解无约束非线性规划问题最常用的方法,具...

  • L-BFGS算法介绍

    本文由作者林洋港授权网易云社区发布。 一、L-BFGS是什么 L-BFGS是解无约束非线性规划问题最常用的方法,具...

  • L-BFGS算法

    BFGS算法是用来求解最优化问题的,在这个算法中,相对于普通的牛顿迭代法有很大的改进。链接:http://blog...

  • BFGS, L-BFGS算法

    BFGS拟牛顿法的基础上,进一步绕过海塞逆矩阵的存储;L-BFGS,在BFGS的基础上,采取一些进一步的近似措施,...

  • GD 以外的优化方案

    L-BFGS or Conjugate Gradients win. Large-batch L-BFGS ext...

  • Spring Boot的接口限流应用

    阅读目录: 1. 前言2. 算法介绍-计数器法3. 算法介绍-滑动窗口4. 算法介绍-漏桶算法5. 算法介绍-令牌...

  • Spring Boot的接口限流应用

    阅读目录: 1. 前言 2. 算法介绍-计数器法 3. 算法介绍-滑动窗口 4. 算法介绍-漏桶算法 5. 算法介...

  • 面试官问起Spring Boot 接口应该怎么去限流,该如何作答

    文章目录: 前言 2. 算法介绍-计数器法 3. 算法介绍-滑动窗口 4. 算法介绍-漏桶算法 5. 算法介 绍-...

  • Spring Boot 接口如何做限流?面试官问起如何作答

    阅读目录: 1. 前言2. 算法介绍-计数器法3. 算法介绍-滑动窗口4. 算法介绍-漏桶算法5. 算法介 绍-令...

  • 模拟退火算法

    爬山算法(HillClimbing) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次...

网友评论

      本文标题:L-BFGS算法介绍

      本文链接:https://www.haomeiwen.com/subject/nfmghqtx.html