美文网首页
几种利用梯度下降的优化方式

几种利用梯度下降的优化方式

作者: Woooooooooooooo | 来源:发表于2019-05-29 16:06 被阅读0次

    文章参考其他博文,再次表示感谢,侵删

    假设利用回归方程拟合数据V

    以均方误差作为损失函数,损失函数即我们所要优化的函数

    一般会选用梯度下降法(Gradient Descent)进行优化。优化时有不同的方式,也可理解为训练技巧。


    最速梯度下降法/批量梯度下降法(Batch Gradient Descent,BSD)

    1、对目标函数求导
    2、沿倒数方向移动θ
    (学习率可能需要更新)


    随机梯度下降法(stochastic gradient descent,SGD)

    使用最速梯度下降法,将进行N次迭代,直到目标函数收敛,或者到达某个既定的收敛界限。每次迭代都将对m个样本进行计算,计算量大。为了简便计算,SGD每次迭代仅对一个样本计算梯度,直到收敛。

    1、由于SGD每次迭代只使用一个训练样本,因此这种方法也可用作online learning。
    2、每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解。


    Mini-batch Gradient Descent

    介于BSD和SGD之间的一种优化算法。每次选取一定量的训练样本进行迭代。从公式上似乎可以得出以下分析:速度比BSD快,比SGD慢;精度比BSD低,比SGD高。


    带Mini-batch的SGD

    1、选择n个训练样本(n<m,m为总训练集样本数)
    2、在这n个样本中进行n次迭代,每次使用1个样本
    3、对n次迭代得出的n个gradient进行加权平均再并求和,作为这一次mini-batch下降梯度
    4、不断在训练集中重复以上步骤,直到收敛。

    相关文章

      网友评论

          本文标题:几种利用梯度下降的优化方式

          本文链接:https://www.haomeiwen.com/subject/jluytctx.html