美文网首页
最优化算法总结

最优化算法总结

作者: NO_OcaNE | 来源:发表于2018-09-06 10:10 被阅读0次

最优化算法是建立神经网络模型后,求解模型参数的算法

牛顿法

收敛速度快 靠近极小值时收敛速度减慢,求解Hessian矩阵的逆矩阵复杂,容易陷入鞍点 不适用于高维数据

拟牛顿法

收敛速度快,不用计算二阶导数,低运算复杂度 存储正定矩阵,内存消耗大 不适用于高维数据

批量梯度下降

目标函数为凸函数时,可以找到全局最优值 收敛速度慢,需要用到全部数据,内存消耗大 不适用于大数据集,不能在线更新模型

随机梯度下降

避免冗余数据的干扰,收敛速度加快,能够在线学习 更新值的方差较大,收敛过程会产生波动,可能落入极小值,选择合适的学习率比较困难 适用于需要在线更新的模型,适用于大规模训练样本情况

小批量梯度下降

降低更新值的方差,收敛较为稳定 选择合适的学习率比较困难

Momentum

能够在相关方向加速SGD,抑制振荡,从而加快收敛 需要人工设定学习率 适用于有可靠的初始化参数

Nesterov

梯度在大的跳跃后,进行计算对当前梯度进行校正 需要人工设定学习率

Adagrad

不需要对每个学习率手工地调节 仍依赖于人工设置一个全局学习率,学习率设置过大,对梯度的调节太大。中后期,梯度接近于0,使得训练提前结束 需要快速收敛,训练复杂网络时;适合处理稀疏梯度

Adadelta

不需要预设一个默认学习率,训练初中期,加速效果不错,很快,可以避免参数更新时两边单位不统一的问题。 训练后期,反复在局部最小值附近抖动 需要快速收敛,训练复杂网络时

RMSprop

解决 Adagrad 激进的学习率缩减问题 依然依赖于全局学习率 需要快速收敛,训练复杂网络时;适合处理非平稳目标 - 对于RNN效果很好

Adam

对内存需求较小,为不同的参数计算不同的自适应学习率 需要快速收敛,训练复杂网络时;善于处理稀疏梯度和处理非平稳目标的优点,也适用于大多非凸优化 - 适用于大数据集和高维空间

相关文章

  • 优化问题记录

    优化问题可选解: optimizer优化算法总结 - CSDN博客 深度学习最全优化方法总结比较(SGD,Adag...

  • 8. 优化案例

    1. 十大经典算法及其优化2.几种常见的优化算法3. 经验之谈:优化算法两句话精炼总结

  • 爬山算法

    爬山算法(Hill Climbing)是一种最简单的优化算法(优化算法就是找最大或者最小值),这种算法是通过模拟人...

  • 优化算法总结

    简介 本文介绍一下机器学习和深度学习中常用的优化算法和优化器以及一些其他我知道的优化算法,部分算法我也没有搞懂,就...

  • tensorflow Optimizers

    class tf.train.GradientDescentOptimizer 梯度下降算法是用的最普遍的优化算法...

  • in notin exists not exists 性能优化算

    in notin exists not exists 性能优化算法总结 1.1. in 和 exists 区别 1...

  • 优化方法总结

    优化算法框架 神经网络模型中有多种优化算法,优化算法的作用用来优化更新参数。对于优化算法而言,主要的框架如下。参数...

  • 最优化算法总结

    最优化算法是建立神经网络模型后,求解模型参数的算法 牛顿法 收敛速度快 靠近极小值时收敛速度减慢,求解Hessia...

  • 局部搜索算法简介

    局部搜索算法 目录: 1、数学定义 2、过程描述 3、算法简介 4、总结 1、数学定义 局部搜索是解决最优化问题的...

  • 要看的

    排序算法总结 单例模式 注解反射原理 ANR 设计模式 Volley源码分析 图片优化 Http vs Https...

网友评论

      本文标题:最优化算法总结

      本文链接:https://www.haomeiwen.com/subject/dovtgftx.html