AdaGrad
独立调整模型所有参数的学习率,从训练过程的开始不断的减小learning rate
较大的梯度---rapid decrease 较小的梯度---relaticely small decrease
image缺点是过度地降低了学习率,凸函数中性能更好
RMSProp
通过引入超参数alpha,控制量对历史梯度值的依赖程度
区别于AdaGrad将所有的梯度值叠加,RMSProp可避免训练过程中学习率过小
imagcombine momentum with RMSProp
Adam
s for momentum
r for RMSProp
imagThe most straightforward way to add momentum to RMSProp is to apply momentum to the rescaled gradients
网友评论