转自知乎 https://zhuanlan.zhihu.com/p/32230623
首先定义:待优化参数:,目标函数:
,初始学习率 :
而后,开始进行迭代优化。在每个epoch
计算目标函数关于当前参数的梯度:
根据历史梯度计算一阶动量和二阶动量:
,
计算当前时刻的下降梯度:
根据下降梯度进行更新:
掌握了这个框架,你可以轻轻松松设计自己的优化算法。步骤3、4对于各个算法都是一致的,主要的差别就体现在1和2上
转自知乎 https://zhuanlan.zhihu.com/p/32230623
首先定义:待优化参数:,目标函数:
,初始学习率 :
而后,开始进行迭代优化。在每个epoch
计算目标函数关于当前参数的梯度:
根据历史梯度计算一阶动量和二阶动量:
,
计算当前时刻的下降梯度:
根据下降梯度进行更新:
掌握了这个框架,你可以轻轻松松设计自己的优化算法。步骤3、4对于各个算法都是一致的,主要的差别就体现在1和2上
本文标题:2019-04-28 梯度下降
本文链接:https://www.haomeiwen.com/subject/duzqnqtx.html
网友评论