深度学习的优化：理论和算法《Optimization for d

作者: 数据小新手 | 来源:发表于2020-01-21 15:54 被阅读0次

3 梯度下降，使用和基本分析

大量的神经网络的优化算法是基于梯度下降方法的。但是在通常使用过程中，更加常见的方法是SGD（随机梯度下降）每次随机选取样本i，然后更新参数。

3.1 计算梯度（BP）

BP算法是神经网络的重要算法。从最优化的视角来看，这是计算梯度的有效方法。

loss function
$F(\theta) = ||y-W^L\phi(W^{L-1}...W^2\phi(W^1x))||^2$
其中
$z^{L-1}=\phi(h^{L-1}),h^L=W^Lx^{L-1}$
其中 $h^l$ 称为pre-activation, $z^l$ 称为post-activation.

3.2 Basic Convergence Analysis of GD

关于convergence有很多标准，虽然我们想要迭代收敛的全局最小值，，一个更加通用的描述是每个有限点都是stationary point。 Stationary points 和全局最小点的差异不包括以下情况。序列有超过一个的限制点，限制点不存在。另一个标准是收敛的函数值，如果函数值下届是0并且序列F 是下降，序列肯定会收敛到一个值。

收敛理论：

Lipschitz smooth gradient

如果所有的迭代是有界的，那么合适常有线次迭代部步数会收敛。

bounded Lipschitz constants只能保证收敛，但不能保证收敛速度。一个更严重的问题是Lipschitz 常数可能非常大或者非常小，即使bounded.

网友评论

本文标题：深度学习的优化：理论和算法《Optimization for d

本文链接：https://www.haomeiwen.com/subject/wiyezctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！