Stanford cs231n #2 Parameter Upd

Stanford cs231n #2 Parameter Upd

作者: 麦兜胖胖次 | 来源:发表于2016-12-18 21:41 被阅读0次

Stanford cs231n #2 Parameter Upd
Stanford cs231n
Stanford cs231n Assignment #2 实现
Stanford cs231n #3
Stanford cs231n Assignment #1 (a
Stanford cs231n Assigenment #1 (
linux指令基础学习笔记
Stanford cs231n Assignment #1 (b
Stanford cs231n Assignment #1 (c
Stanford cs231n Assignment #1 (d

在开始assignment之前，要先马一个国外大神对于gradient descent optimization algorithm的总结：http://sebastianruder.com/optimizing-gradient-descent/index.html#fnref:1

Gradient Descent

(1) SGD

Paste_Image.png

SGD的问题在于，在很多情况下收敛速度过慢，考虑如下情况：

Paste_Image.png

在flat的方向上过慢，而在steep的方向上上下幅度过大导致收敛过程异常缓慢。为了解决这个问题，有人提出了Momentum Update

(2) Momentum update

Paste_Image.png

Andrej大神教我们如何去理解这个momentum（动量）。首先我们的loss function在这个field内就像一个小球，它需要force产生加速度，从而有速度。gradient就相当于加速度，v就是速度，那么mu*v就是friction。也就是说为了让小球能稳定下来，我们需要一个friction来达到steady state。mu就是momentum，表示虽然我们希望改变梯度，但是要保留原来的值，好比惯性一样，和当前计算得出的改变量做一个tradeoff。mu可以取0.5,0.9,0.99等...

当然有人在momentum基础上又做了一步改进，就是

Paste_Image.png

NAG的意义在于，向前多“观测”了一步，这样调整过程可以更快速。

(3) AdaGrad

Paste_Image.png

这样的意义在于，当我们发现原来在steep方向上下降速度过快（可以从累积的cache体现），这样的scale down做法就可以减缓这个方向的下降速度，从而减小jiggle，加快收敛。但是问题是，过了一些迭代之后“小球”就停下来了，这并不是我们想要的，尤其是在训练深度神经网络的时候。Hinton在12年对这个算法做出了改进。加入了leaky：

Paste_Image.png

这样的好处在于解决了当cache过大的时候，梯度下降不再继续的尴尬。比较funny的一点在于，Hinton本人并没有发表文章，只是在他po在coursera的课上的一个slide里面提到...之后有人在论文里只好引用这个slide...哈哈哈6666，Hinton都不屑于发这种东西了是嘛……

(4) Adam Update

Adam: combining momentum update and RMSProp

Paste_Image.png

Andrej说一般来讲beta1取0.9，beta2取0.995。

(5) 关键是 Learning decay rate over time!

Paste_Image.png

通常这些exponential decay用于sgd。

(6) Second order optimization methods

nice feature: no learning rate，可以由hessian矩阵更直接的知道该向最速下降方向走多少。

Paste_Image.png

两种常见的second order optimization: BFGS and L-BFGS

相关文章

Stanford cs231n #2 Parameter Upd
在开始assignment之前，要先马一个国外大神对于gradient descent optimization ...
Stanford cs231n
计算机视觉概述 computer vision 针对视觉数据的研究视觉传感器的增长和发展（eg 手机）超级多的视...
Stanford cs231n Assignment #2 实现
assignment2下，在cnn之前还有fully connected neural nets，batch no...
Stanford cs231n #3
待完成。
Stanford cs231n Assignment #1 (a
好久没有好好学机器学习了，上学期写过的CNN, SVM, 自编码器都已经生疏了。打算发愤图强了……已经看了cs23...
Stanford cs231n Assigenment #1 (
1.Histogram of Gradients 具体HoG的原理参见本博客计算机视觉的一篇转载文章，以下是课程提...
linux指令基础学习笔记
[vbird@www ~]$ command [-options] parameter1 parameter2 ....
Stanford cs231n Assignment #1 (b
上一章完成了一个KNN Classifier，这一章就来到了熟悉又陌生的SVM...感觉自己虽然以前用过SVM，但...
Stanford cs231n Assignment #1 (c
这篇文章讲的是用softmax分类器来实现分类任务。其实softmax和svm的分类效果在很多情况下都是差不多的，...
Stanford cs231n Assignment #1 (d
这一章讲如何实现一个最简单的两层神经网络，首先还是说一下关于backpropagation的意义。去年在cours...

网友评论

本文标题：Stanford cs231n #2 Parameter Upd

本文链接：https://www.haomeiwen.com/subject/btszmttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Stanford cs231n #2 Parameter Upd|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！