SGD
随机梯度下降法是梯度下降法的一个小变形,就是每次使用一批(batch)数据进行梯度的计算,而不是计算全部数据的梯度,因为现在深度学习的数据量都特别大,所以每次都计算所有数据的梯度是不现实的,这样会导致运算时间特别长,同时每次都计算全部的梯度还失去了一些随机性,容易陷入局部误差,所以使用随机梯度下降法可能每次都不是朝着真正最小的方向,但是这样反而容易跳出局部极小点。
Momentum
在随机梯度下降的同时,增加动量(Momentum)。
Adagrad
自适应学习率(adaptive)的方法。
RMSprop
自适应学习率的改进方法。
Adam
RMSprop + Momentum。
Conclusion
- 默认使用Adam。
- 值得尝试SGD+Momentum。
网友评论