本文摘自:
http://blog.csdn.net/itplus/article/details/21896453
https://www.cnblogs.com/ljy2013/p/5129294.html?from=singlemessage&isappinstalled=0
优化求解损失函数是机器学习最重要的步骤,往往求解函数没有解析解,而是通过迭代优化方法寻找全局最优。
介绍最常用的方法LBFGS,不过要先看看GD、DFP和BFGS算法,然后再理解LBFGS会更清晰。
先看下最基础的梯度下降法(Gradient Descent)
为了保证函数能够一直沿着梯度下降,则
那么我们只需要保证
就有
所以有了我们最常用的梯度下降法公式(加上步长控制)
但是梯度下降是只用了一次导数,所以对二次函数或者高阶求解速度较慢,下面我们介绍二次收敛性的方法
data:image/s3,"s3://crabby-images/84473/8447324bbcae94120636d5bdf4e2eb7dcd5435ff" alt=""
data:image/s3,"s3://crabby-images/ebb70/ebb700fdce84ae5e70ed7af7ce4452e47407fbe6" alt=""
data:image/s3,"s3://crabby-images/54e71/54e71b0bd62e773daff1081354bb003296719183" alt=""
data:image/s3,"s3://crabby-images/70be0/70be01da1294b7473903c2209892c35d23817fc2" alt=""
data:image/s3,"s3://crabby-images/82ea9/82ea99986740e2e0ca721cf4b9f197d368a56944" alt=""
data:image/s3,"s3://crabby-images/06d9d/06d9dab8afd53b1e2a5a2a7aebf79a4064ac85c1" alt=""
从这里我们可以看出:要想迭代出Xk+1,就只需要计算Dk+1即可。DFP算法是对Dk+1的一个近似计算的算法。BFGS算法是直接近似计算海森矩阵,用Bk+1表示。
data:image/s3,"s3://crabby-images/9f6b1/9f6b1e2222795f0ec8936d1ee0f84d6c67ff2d37" alt=""
这里D_k的假设可以从一个单位矩阵不断优化得到,有点类似MCMC里面,从一个均匀分布可以得到任何一个分布。
data:image/s3,"s3://crabby-images/c629e/c629e3ad0ebdb3aee045c0ddd4c0512b707bfc09" alt=""
这里公式sk=\lambda dk
dk=-H_k^{-1}g_k=-D_K*g_k
data:image/s3,"s3://crabby-images/38a7d/38a7dcde3ce812e3d99198e355c0dc7f8d6724ac" alt=""
data:image/s3,"s3://crabby-images/5f1dd/5f1ddc64cbbd5c6e58d6a34dfe577803f10fcb80" alt=""
data:image/s3,"s3://crabby-images/9e670/9e670802bfadbd30e5deeea6d3b7ca2769011d44" alt=""
data:image/s3,"s3://crabby-images/ffd38/ffd38d26c020eb9a4c876139326e314493e40049" alt=""
data:image/s3,"s3://crabby-images/a014c/a014cc8474c29d49a8e221b71ed486b984db1346" alt=""
data:image/s3,"s3://crabby-images/93005/930052790011b580fe6f24fb1f6248d9b6940474" alt=""
data:image/s3,"s3://crabby-images/a8901/a8901c6a2c26361b58449496b5b405f76d2ac3f1" alt=""
网友评论