【模型训练】如何选择最适合你的学习率变更策略

作者: 有三AI | 来源:发表于2019-01-16 08:11 被阅读34次

【模型训练】如何选择最适合你的学习率变更策略
tf教程4: LSTM预测时序数据
tf教程4: 因果卷积+LSTM预测时序数据
tf教程4: RNN预测时序数据(包含Lambda Layer的
X264中的码率控制算法
深度学习模型调试和监控（7.2）
人人都能懂的机器学习——训练深度神经网络——学习率规划
tf教程4: DNN预测时序数据(包含学习率的选择方法)
2018-04-21
吴恩达机器学习 - 应用机器学习的建议

本文首发于微信公众号《与有三学AI》

如果让我投票给深度学习中，最不想调试，但又必须要小心调试的参数，毫无疑问会投给学习率，今天就来说说这个。

01 项目背景

我们选择了GHIM-10k数据集，这是一个图像检索数据集，包含20个类别，分别是日落，船舶，花卉，建筑物，汽车，山脉，昆虫等自然图像，各个类别拥有较好的多样性，而类别之间也有比较好的区分度。数据集共10000张图像，每个类别包含500张JPEG格式的大小为400×300或300×400的图像。

如下图就是其中的烟花类别。

定义了一个6层的卷积神经网络，网络结构如下：

细节咱就不多说，如果你想复现本文结果，可以发送关键词“有三AI训练营12-16”到后台获取网络配置等文件。

02 学习率变更策略

学习率是一个非常重要的参数，可以直接影响模型的收敛与否。不同的学习率变更策略也会影响最终的迭代结果。

下面以sgd优化方法，来介绍各种策略。caffe框架中的策略包括fixed，step，exp，inv，multistep，poly，sigmoid。

2.1 fixed

fixed，即固定学习率，这是最简单的一种配置，只需要一个参数。

lr_policy: "fixed"

base_lr: 0.01

如上图，在整个的优化过程中学习率不变，这是非常少使用的策略，因为随着向全局最优点逼近，学习率应该越来越小才能避免跳过最优点。

2.2 step

采用均匀降低的方式，比如每次降低为原来的0.1倍

lr_policy: "step"

base_lr: 0.01

stepsize: 10000

gamma:0.1

这是非常常用的一个学习率迭代策略，每次将学习率降低为原来的一定倍数，属于非连续型的变换，使用简单，而且效果通常较好。

不过从上图也可以看出，其实学习率的变化一点都不平滑。

2.3 multistep

采用非均匀降低策略，指定降低的step间隔，每次降低为原来的一定倍数。

lr_policy: "multistep"

gamma: 0.5

stepvalue: 10000

stepvalue: 30000

stepvalue: 60000

这是比step更加复杂的策略，也是采用非连续型的变换，但是变换的迭代次数不均匀，也是非常常用的策略，需要经验。

2.4 exp

这是一种指数变化，new_lr = base_lr * (gamma^iter)，可知这是连续变化，学习率的衰减非常的快，gamma越大则衰减越慢，但是因为caffe中的实现使用了iter作为指数，而iter通常都是非常大的值，所以学习率衰减仍然非常快。

2.5 inv

new_lr = base_lr * (1 + gamma * iter) ^ (- power)，可以看出，也是一种指数变换，参数gamma控制曲线下降的速率，而参数power控制曲线在饱和状态下学习率达到的最低值。

2.6 poly

new_lr = base_lr * (1 – iter/maxiter) ^ (power)，可以看出，学习率曲线的形状主要由参数power的值来控制。当power = 1的时候，学习率曲线为一条直线。当power < 1的时候，学习率曲线是凸的，且下降速率由慢到快。当power > 1的时候，学习率曲线是凹的，且下降速率由快到慢。