记:
算法名称 | 算法公式 | 描述 |
---|---|---|
BGD | 每次使用全部样本 | |
SGD | 每次使用一个样本 | |
MGD | 每次使用m个样本 | |
Momentum | 指数累加梯度值, | |
Nesterov | 以未来位置的梯度作为本次累加的梯度, | |
Adagrad | 对稀疏数据低频大更高频小更, | |
RMSprop | 用指数平滑均值代替全梯度求和, | |
AdaDelta | 或令 | 一阶方法逼近二阶牛顿法, |
Adam(Adaptive Moment Estimation) | RMSprop + Momentum+偏差矫正, |
梯度下降算法
系数更新公式为:
不妨设,且损失函数为:
则梯度为:
对于BGD,n为全体数据量;对于SGD,n为1;对于MGD,n为批量大小m。
牛顿二阶梯度优化法的推导
在泰勒展开以及梯度为
令时,得
从而
牛顿二阶系数更新公式
系数更新公式为:
其中为参数二阶导矩阵,即Hessian矩阵。代替了,不过计算复杂度为,代价太高。
AdaDelta
使用一阶方法近似牛顿二阶,从而可以省去超参。记:
由牛顿二阶法系数更新公式
可得
从而
网友评论