学习率优化trick
在机器学习中,学习率的选择,或者说Optimizer的选择,会很大程度上影响学习的效果。当然,现在Moumentoum和Ada-Grad,Adam等方法,已经能够得到非常不错的结果。但是真实训练中,学习率还是作为一个超参影响者其效果或者效率。
一般的算法,会使学习率随着训练不断缩小(Step Decay)来使其更稳定地收敛。但真实的Loss Surface并不是那么平滑。可能会反复地遭遇收敛速度下降的问题。
Cyclical Learning Rates for Training Neural Networks
中阐述了一种周期性调整学习率的原理与其带来的效果提升。
其中,周期性调整,能使得Optimizer更快地通过鞍点。(鞍点的梯度很小,二维空间中为反曲点,三维中为局部方向的最大与局部方向最小的值交汇处)
二维:
二维鞍点
三维:
三维鞍点
学习率调参方法 也可以做为一个不错的补充,更多方法的参考。
网友评论