美文网首页
深度学习的优化:理论和算法《Optimization for d

深度学习的优化:理论和算法《Optimization for d

作者: 数据小新手 | 来源:发表于2020-01-21 15:54 被阅读0次

    3 梯度下降,使用和基本分析

    大量的神经网络的优化算法是基于梯度下降方法的。但是在通常使用过程中,更加常见的方法是SGD(随机梯度下降)每次随机选取样本i,然后更新参数。

    3.1 计算梯度(BP)

    BP算法是神经网络的重要算法。从最优化的视角来看,这是计算梯度的有效方法。

    loss function
    F(\theta) = ||y-W^L\phi(W^{L-1}...W^2\phi(W^1x))||^2
    其中
    z^{L-1}=\phi(h^{L-1}),h^L=W^Lx^{L-1}
    其中h^l 称为pre-activation, z^l 称为post-activation.

    3.2 Basic Convergence Analysis of GD

    关于convergence有很多标准,虽然我们想要迭代收敛的全局最小值,,一个更加通用的描述是每个有限点都是stationary point。 Stationary points 和全局最小点的差异不包括以下情况。序列有超过一个的限制点,限制点不存在。另一个标准是收敛的函数值,如果函数值下届是0并且序列F 是下降,序列肯定会收敛到一个值。

    收敛理论:

    Lipschitz smooth gradient

    如果所有的迭代是有界的,那么合适常有线次迭代部步数会收敛。

    bounded Lipschitz constants只能保证收敛,但不能保证收敛速度。一个更严重的问题是Lipschitz 常数可能非常大或者非常小,即使bounded.

    相关文章

      网友评论

          本文标题:深度学习的优化:理论和算法《Optimization for d

          本文链接:https://www.haomeiwen.com/subject/wiyezctx.html