美文网首页
各种梯度下降算法及其变体的比较

各种梯度下降算法及其变体的比较

作者: Dorts | 来源:发表于2016-06-14 20:01 被阅读161次

    http://blog.csdn.net/luo123n/article/details/48239963

    Karpathy做了一个这几个方法在MNIST上性能的比较,其结论是:adagrad相比于sgd和momentum更加稳定,即不需要怎么调参。而精调的sgd和momentum系列方法无论是收敛速度还是precision都比adagrad要好一些。在精调参数下,一般Nesterov优于momentum优于sgd。而adagrad一方面不用怎么调参,另一方面其性能稳定优于其他方法。

    最新Adam更新算法介绍
    http://sebastianruder.com/optimizing-gradient-descent/

    相关文章

      网友评论

          本文标题:各种梯度下降算法及其变体的比较

          本文链接:https://www.haomeiwen.com/subject/tnpudttx.html