凡事架不住亲自跑一把——梯度下降算法篇

凡事架不住亲自跑一把——梯度下降算法篇

作者: Pope怯懦懦地 | 来源:发表于2017-06-17 16:28 被阅读196次

凡事架不住亲自跑一把——梯度下降算法篇
凡事架不住亲自跑一把——聚类算法篇
凡事架不住亲自跑一把—— Logistic 回归算法篇
凡事架不住亲自跑一把—— Perceptron 篇
深入浅出--梯度下降法及其实现
凡事架不住亲自跑一把—— Back Propagation 篇
凡事架不住亲自跑一把—— underfitting &
浅谈神经网络中的梯度爆炸问题
多层神经网络，从零开始——（九）、优化函数
总结那些常用的优化方法

看 Andrew Ng 的机器学习课，听得懵懵懂懂，想着自己跑一把吧。没曾想跑出这么多道道来😱

思想很简单：有一坨便便，看起来像便便，闻起来像便便，我们就姑且当它便便吧。

这有 10 个点，看起来挺像在一条直线上的，我们就想知道到底该选哪一条。

training set

选择标准是什么呢？要不就拿「数据点到直线的距离之和」来评判吧：

要是我们能找到这个判别函数J(theta_0, theta_1)^[1]的最小值点，那个点的坐标(theta_0, theta_1)就是所求直线的待求参数。

接下来的问题是怎么找到它的最小值？我们先把这函数画出来看看吧：

J(...)

这个函数会在点(-4.96154, 0.134615)处取得最小值16.4973^[2]。

首次拟合直线

看起来还不错。但……

但，数学家们不喜欢绝对值函数☠️他们喜欢这款^maximum likelihood：

这函数长这样：

数学家们喜欢平滑的

这个 2.0 版函数会在点(-8.64507, 0.161234)处取得最小值22.3703。

红线为新版参数确定的拟合直线

你能看出哪条直线更好吗？反正我是不能☹️

等等，我们是不是该回到正题——怎么求到判别函数的最小值点——了？！

很简单，我们找到「下山的方向」，跟着走就行了。直到「原地打转」（就是前后脚距离不超过某个预设的值ε）为止。

至于 α 是什么，Andrew Ng 把它叫做 learning rate，也有的叫它「步长」。其实它还蛮重要的，因为它控制着下山的步子。步子大了，一不小心迈过最小值点了；步子小了，走太慢。

接下来，我们来验证一下这个算法好使不。拿x^2+y^2来试试，因为它简单，够清楚。

下山路径（步长 0.1，`ε = 0.001`）：走了 37 步

目前看一切挺好，但是当我们把步长调到 1 的时候，它就开始原地打转了，调到 1.1 的时候，开始蹦跶出去了😱

让你蹦跶，出去了吧 P.S. 本来想连上线的，实在搞不定，将就看吧😞

好吧，我终于锲而不舍地画出来了👻

遇到特别陡峭的变态函数怎么办？

首先想到的是：要是新点的判别函数值比前一点的还高，那就调小步长，并且回退。试了下，效果不错。一旦跑反了，还知道回来。

红色直线为梯度下降算法得到的，似乎效果不太好😅

下面的问题是如何让步长自适应变化。不过涉及到优化的问题就有点烦人了，先就这样吧。

最后做个有意思的吧：看看能不能用 linear regression 做个手写识别。

首先是去下一个「手写数字库」；
预处理下照片：缩小，压扁（拍成一个数组）；
丢给现成的「线性回归库」做；

直接上代码吧：

妄图用线性回归做手写数字识别，哈哈哈哈！！！~

毛都跑不出来！！！

注意这个判别函数是关于 theta_0 和 theta_1 的函数，x, y 什么的都只是系数。 ↩
不要问我怎么算出来的，用 Mathematica 作个弊不行啊 ↩

相关文章

凡事架不住亲自跑一把——梯度下降算法篇
看 Andrew Ng 的机器学习课，听得懵懵懂懂，想着自己跑一把吧。没曾想跑出这么多道道来? 思想很简单：有一坨...
凡事架不住亲自跑一把——聚类算法篇
最近在看机器学习。想着这那的机器学习算法不就是一个个分类判别算法吗？！但它们大多没能描述清楚内在的结构。就想着，从...
凡事架不住亲自跑一把—— Logistic 回归算法篇
大家都知道，Logistic 函数长这样：但从来没人告诉我，二维的 Logistic 函数长啥样? 所以，我更喜...
凡事架不住亲自跑一把—— Perceptron 篇
写这篇时，我并没有完全搞懂。谨作记录。我们知道，单层神经网络的结构很简单：线性加权求和 + sigmoid 。而...
深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
凡事架不住亲自跑一把—— Back Propagation 篇
虽然名字叫「反向传播」，但其实原理跟「反向」毛关系都没有。首先，在输出层之后加上一个节点 C（即 cost fu...
凡事架不住亲自跑一把—— underfitting &
我们先拿出 5 个点来作为训练集，按直线、二次曲线、四次曲线分别做拟合：目前看来，二次和四次都差不多嘛。这时候，...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...

网友评论

本文标题：凡事架不住亲自跑一把——梯度下降算法篇

本文链接：https://www.haomeiwen.com/subject/tifbqxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|凡事架不住亲自跑一把——梯度下降算法篇|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！