3 梯度下降,使用和基本分析
大量的神经网络的优化算法是基于梯度下降方法的。但是在通常使用过程中,更加常见的方法是SGD(随机梯度下降)每次随机选取样本i,然后更新参数。
3.1 计算梯度(BP)
BP算法是神经网络的重要算法。从最优化的视角来看,这是计算梯度的有效方法。
loss function
其中
其中 称为pre-activation, 称为post-activation.
3.2 Basic Convergence Analysis of GD
关于convergence有很多标准,虽然我们想要迭代收敛的全局最小值,,一个更加通用的描述是每个有限点都是stationary point。 Stationary points 和全局最小点的差异不包括以下情况。序列有超过一个的限制点,限制点不存在。另一个标准是收敛的函数值,如果函数值下届是0并且序列F 是下降,序列肯定会收敛到一个值。
收敛理论:
Lipschitz smooth gradient
如果所有的迭代是有界的,那么合适常有线次迭代部步数会收敛。
bounded Lipschitz constants只能保证收敛,但不能保证收敛速度。一个更严重的问题是Lipschitz 常数可能非常大或者非常小,即使bounded.
网友评论