Adam优化方法

作者: 噗嗤噗哩噗通 | 来源:发表于2021-10-12 15:52 被阅读0次

Adam优化方法
深度学习基础知识点归纳总结
Paddlepaddle:一般任务最佳实践
吴恩达深度学习笔记(45)-Adam 优化算法(Adam opt
Adam优化算法
2015-8-1 优化
Adam优化器的学习率（learning rate）的困惑
Adam优化算法笔记
SGD、Adam优化器
优化算法：Adam 分析

整理动量梯度下降算法的时候，这一类大概有3种：

动量梯度下降
RMSprop
Adam 优化算法

这里主要记录一下这3个算法的优化过程

动量梯度下降

$v_{dW}= \beta * v_{dW} + (1- \beta ) *dW$
$v_{db}= \beta * v_{db} + (1- \beta ) *db$
$W= W - \alpha *dW = W - \alpha * v_{dW}$
$b= b - \alpha *db = b - \alpha * v_{db}$

RMSprop

$S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}$
$S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}$
$W= W - \alpha * \frac{dW}{ \sqrt {S_{dW} } + \epsilon }$
$b= b - \alpha * \frac{db}{ \sqrt {S_{db} } + \epsilon }$
$\epsilon = 10^{-8}$

Adam 优化算法

$v_{dW}= \beta_{1} * v_{dW} + (1- \beta_{1} ) *dW$
$v_{db}= \beta_{1} * v_{db} + (1- \beta_{1} ) *db$
$S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}$
$S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}$

$v^{corrected}_{dW} = \frac {v_{dW} }{1-\beta^t_{1} }$
$v^{corrected}_{db} = \frac {v_{db} }{1-\beta^t_{1} }$
t为迭代次数

$S^{corrected}_{dW} = \frac {S_{dW} }{1-\beta^t_{2} }$
$S^{corrected}_{db} = \frac {S_{db} }{1- \beta^t_{2} }$
t为迭代次数

$W= W - \alpha * \frac {v^{corrected}_{dW} } {\sqrt{S^{corrected}_{dW} } + \epsilon }$
$b= b - \alpha * \frac {v^{corrected}_{db} } {\sqrt{S^{corrected}_{db} } + \epsilon }$

Adam优化方法
整理动量梯度下降算法的时候，这一类大概有3种：动量梯度下降 RMSprop Adam 优化算法这里主要记录一下...
深度学习基础知识点归纳总结
1. 最小化代价函数优化方法：BGD、SGD、MBGD、动量、NAG、Adagrad、AdaDelta、Adam、...
Paddlepaddle:一般任务最佳实践
图像分类 1.优化器使用Adam opt = fluid.optimizer.Adam(learning_rate...
吴恩达深度学习笔记(45)-Adam 优化算法(Adam opt
Adam 优化算法(Adam optimization algorithm) 在深度学习的历史上，包括许多知名研究...
Adam优化算法
Adam，适应性矩估计（adaptive moment estimation） 1. Adam优势 Adam 优...
2015-8-1 优化
【Chainer下各种优化算法(SGD/AdaGrad/RMSprop/ADAM/...)比较】《Chainer ...
Adam优化器的学习率（learning rate）的困惑
链接:Adam优化器的学习率（learning rate）的困惑？问题：优化器选用tf.train.AdamOpt...
Adam优化算法笔记
SGD、Adam优化器
优化器 https://blog.csdn.net/yukinoai/article/details/841982...
优化算法：Adam 分析
重温了下论文《Adam: A Method for Stochastic Optimization》，结合李沐的系...