Optimization algorithms优化算法

作者: Simple_isBeauty | 来源:发表于2018-10-12 13:20 被阅读0次

1. Mini-batch gradient descent

将训练集拆分成小批量，比如一个小批样例只有1000个训练样例

image.png

小批量梯度下降，每次只对一个小批样例进行计算

mini-batch的大小就等于m 这样其实就是批量梯度下降，在这种情况下你的mini-batch 只有一个X{1}和Y{1} 而它就等于你的整个训练集
另一极端情况是把mini-batch的大小设为1，就会得到一种叫随机梯度下降的算法

image.png

(epoch) 遍历是指过一遍训练集只不过在批量梯度下降法中对训练集的一轮处理只能得到一步梯度逼近而小批量梯度下降法中对训练集的一轮处理也就是一次遍历可以得到5000步梯度逼近
当你有一个大型训练集时小批量梯度下降法比梯度下降法要快得多

2. Understanding mini-batch gradient descent

image.png

3. Exponentially weighted averages

image.png

4. Understanding exponentially weighted averages

近似认为平均值数，截止到权重项影响值小于1/3时

image.png

5. Bias correction in exponentially weighted averages

使之成为加权平均，消除了偏差
当t值足够大时偏差修正值对运算将基本没有影响这也是为什么当t值增大紫线和绿线基本重合

image.png

6. Gradient descent with momentum

有一种算法叫做动量(Momentum) 或者叫动量梯度下降算法它几乎总会比标准的梯度下降算法更快一言以蔽之算法的主要思想是 计算梯度的指数加权平均然后使用这个梯度来更新权重

image.png

7. RMSprop

有一个叫做RMSprop的算法全称为均方根传递(Root Mean Square prop)它也可以加速梯度下降

image.png

8. Adam optimization

image.png

9. Learning rate decay

image.png

10. The problem of local optima

要点是

首先实际上你不太可能陷入糟糕的局部最优点只要你训练的是一个较大的神经网络有很多参数代价函数J定义在一个相对高维的空间上
其次停滞区是个问题，它会让学习过程变得相当慢这也是像动量(Momentum)算法或RmsProp算法或Adam算法能改善你的学习算法的地方这些场景下更复杂的算法比如Adam算法可以加快沿停滞区向下移动然后离开停滞区的速度因为神经网络是在非常高维的空间上解决优化问题

网友评论

本文标题：Optimization algorithms优化算法

本文链接：https://www.haomeiwen.com/subject/tifyaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Optimization algorithms优化算法

1. Mini-batch gradient descent

2. Understanding mini-batch gradient descent

3. Exponentially weighted averages

4. Understanding exponentially weighted averages

5. Bias correction in exponentially weighted averages

6. Gradient descent with momentum

7. RMSprop

8. Adam optimization

9. Learning rate decay

10. The problem of local optima

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读