美文网首页
凡事架不住亲自跑一把——梯度下降算法篇

凡事架不住亲自跑一把——梯度下降算法篇

作者: Pope怯懦懦地 | 来源:发表于2017-06-17 16:28 被阅读196次

看 Andrew Ng 的机器学习课,听得懵懵懂懂,想着自己跑一把吧。没曾想跑出这么多道道来😱

思想很简单:有一坨便便,看起来像便便,闻起来像便便,我们就姑且当它便便吧。

这有 10 个点,看起来挺像在一条直线上的,我们就想知道到底该选哪一条。

training set

选择标准是什么呢?要不就拿「数据点到直线的距离之和」来评判吧:

要是我们能找到这个判别函数J(theta_0, theta_1)[1]的最小值点,那个点的坐标(theta_0, theta_1)就是所求直线的待求参数。


接下来的问题是怎么找到它的最小值?我们先把这函数画出来看看吧:

J(...)

这个函数会在点(-4.96154, 0.134615)处取得最小值16.4973[2]

首次拟合直线

看起来还不错。但……


但,数学家们不喜欢绝对值函数☠️他们喜欢这款^maximum likelihood

这函数长这样:

数学家们喜欢平滑的

这个 2.0 版函数会在点(-8.64507, 0.161234)处取得最小值22.3703

红线为新版参数确定的拟合直线

你能看出哪条直线更好吗?反正我是不能☹️


等等,我们是不是该回到正题——怎么求到判别函数的最小值点——了?!

很简单,我们找到「下山的方向」,跟着走就行了。直到「原地打转」(就是前后脚距离不超过某个预设的值ε)为止。

至于 α 是什么,Andrew Ng 把它叫做 learning rate,也有的叫它「步长」。其实它还蛮重要的,因为它控制着下山的步子。步子大了,一不小心迈过最小值点了;步子小了,走太慢。

接下来,我们来验证一下这个算法好使不。拿x^2+y^2来试试,因为它简单,够清楚。

下山路径(步长 0.1,`ε = 0.001`):走了 37 步

目前看一切挺好,但是当我们把步长调到 1 的时候,它就开始原地打转了,调到 1.1 的时候,开始蹦跶出去了😱

让你蹦跶,出去了吧 P.S. 本来想连上线的,实在搞不定,将就看吧😞

好吧,我终于锲而不舍地画出来了👻


遇到特别陡峭的变态函数怎么办?

首先想到的是:要是新点的判别函数值比前一点的还高,那就调小步长,并且回退。试了下,效果不错。一旦跑反了,还知道回来。

红色直线为梯度下降算法得到的,似乎效果不太好😅

下面的问题是如何让步长自适应变化。不过涉及到优化的问题就有点烦人了,先就这样吧。


最后做个有意思的吧:看看能不能用 linear regression 做个手写识别。

  1. 首先是去下一个「手写数字库」;

  2. 预处理下照片:缩小,压扁(拍成一个数组);

  3. 丢给现成的「线性回归库」做;

直接上代码吧:

妄图用线性回归做手写数字识别,哈哈哈哈!!!~

毛都跑不出来!!!


  1. 注意这个判别函数是关于 theta_0 和 theta_1 的函数,x, y 什么的都只是系数。

  2. 不要问我怎么算出来的,用 Mathematica 作个弊不行啊

相关文章

网友评论

      本文标题:凡事架不住亲自跑一把——梯度下降算法篇

      本文链接:https://www.haomeiwen.com/subject/tifbqxtx.html