1、SGD 梯度下降(收敛最慢稳定)
梯度下降:+= - * d J()
批量梯度下降:将数据集切分为多批次, 分别下降取最佳值
随机梯度下降:每次取一个值进行下降
2、momentum
设定一个惯性参数m
3、AdaGrad
对错误方向添加阻力根号下损失梯度
4、RMSProp
RMSProp = AdaGrad+Momentum
对错误方向添加一个惯性
5、Adam(速度最快但是有可能不收敛错过全局最优)
Adam是在Ada基础上对分子以及分母都做一次momentum
网友评论