梯度下降求解线性回归

作者: 烨枫_邱 | 来源:发表于2018-05-29 16:56 被阅读0次

用人话讲明白梯度下降Gradient Descent（以求解多元
Machine_learning(持续补充......)
Python机器学习随笔之非线性分类的logistic回归拟合及
梯度下降求解线性回归
线性回归求解中梯度下降法与最小二乘法的比较
线性回归和逻辑回归理解
线性回归
理解线性回归
梯度下降
线性回归参数最优解的闭式解与梯度下降

什么是梯度下降？在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就先来看看课件，到底梯度下降法是如何具备完美的理论支撑的。

梯度下降的理论基础

1. 梯度

在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/∂y，∂f/∂z)T,以此类推。

那么这个梯度向量求出来有什么意义呢？他的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数f(x,y),在点(x0,y0)，沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 -(∂f/∂x0, ∂f/∂y0)T的方向，梯度减少最快，也就是更加容易找到函数的最小值。

2. 梯度下降与梯度上升

　　　　在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

　　　　梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值，这时我们需要用梯度下降法来迭代求解。但是实际上，我们可以反过来求解损失函数 -f(θ)的最大值，这时梯度上升法就派上用场了。

3. 梯度下降法算法详解

3.1 梯度下降的直观解释

　　　　首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

　　　　从上面的解释可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

3.2 梯度下降的相关概念

　　　　在详细了解梯度下降的算法之前，我们先看看相关的一些概念。

1). 步长（Learning rate）：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。用上面下山的例子，步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。

2).特征（feature）：指的是样本中输入部分，比如2个单特征的样本（x(0),y(0)）,（x(1),y(1)）,则第一个样本特征为x(0)，第一个样本输出为y(0)。

3). 假设函数（hypothesis function）：在监督学习中，为了拟合输入样本，而使用的假设函数，记为hθ(x)。比如对于单个特征的m个样本（x(i),y(i)）(i=1,2,...m),可以采用拟合函数如下：hθ(x)=θ0+θ1x。

4). 损失函数（loss function）：为了评估模型拟合的好坏，通常用损失函数来度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。在线性回归中，损失函数通常为样本输出和假设函数的差取平方。比如对于m个样本（xi,yi）(i=1,2,...m)

,采用线性回归，损失函数为：J(θ0,θ1)=∑i=1m(hθ(xi)−yi)2 其中xi 表示第i个样本特征，yi表示第i个样本对应的输出，hθ(xi)为假设函数。

3.3 梯度下降的详细算法

　　　　梯度下降法的算法可以有代数法和矩阵法（也称向量法）两种表示，如果对矩阵分析不熟悉，则代数法更加容易理解。不过矩阵法更加的简洁，且由于使用了矩阵，实现逻辑更加的一目了然。这里先介绍代数法，后介绍矩阵法。

3.3.1 梯度下降法的代数方式描述

　　　　1. 先决条件：确认优化模型的假设函数和损失函数。

比如对于线性回归，假设函数表示为hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn

, 其中θi(i = 0,1,2... n)为模型参数，xi(i = 0,1,2... n)为每个样本的n个特征值。这个表示可以简化，我们增加一个特征x0=1，这样hθ(x0,x1,...xn)=∑i=0nθixi。

同样是线性回归，对应于上面的假设函数，损失函数为：J(θ0,θ1...,θn)=12m∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−yj)2

2. 算法相关参数初始化：主要是初始化θ0,θ1...,θn,算法终止距离ε以及步长α。在没有任何先验知识的时候，我喜欢将所有的θ初始化为0，将步长初始化为1。在调优的时候再优化。

　　　　3. 算法过程：

1）确定当前位置的损失函数的梯度，对于θi,其梯度表达式如下：∂∂θiJ(θ0,θ1...,θn)

2）用步长乘以损失函数的梯度，得到当前位置下降的距离，即α∂∂θiJ(θ0,θ1...,θn)

对应于前面登山例子中的某一步。

3）确定是否所有的θi,梯度下降的距离都小于ε，如果小于ε则算法终止，当前所有的θi

(i=0,1,...n)即为最终结果。否则进入步骤4.

4）更新所有的θ，对于θi，其更新表达式如下。更新完毕后继续转入步骤1.

θi=θi−α∂∂θiJ(θ0,θ1...,θn)

下面用线性回归的例子来具体描述梯度下降。

假设我们的样本是(x(0)1,x(0)2,...x(0)n,y0),(x(1)1,x(1)2,...x(1)n,y1),...(x(m)1,x(m)2,...x(m)n,ym)

,损失函数如前面先决条件所述：J(θ0,θ1...,θn)=12m∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−yj)2。

则在算法过程步骤1中对于θi的偏导数计算如下：

∂∂θiJ(θ0,θ1...,θn)=1m∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−yj)x(j)i

由于样本中没有x0,上式中令所有的xj0为1.步骤4中θi 的更新表达式如下：

θi=θi−α1m∑j=0m(hθ(x(j)0,x(j)1,...xjn)−yj)x(j)i

从这个例子可以看出当前点的梯度方向是由所有的样本决定的，加1m 是为了好理解。由于步长也为常数，他们的乘机也为常数，所以这里α1m可以用一个常数表示。

3.3.2 梯度下降法的矩阵方式描述

　　　　这一部分主要讲解梯度下降法的矩阵方式表述，相对于3.3.1的代数法，要求有一定的矩阵分析的基础知识，尤其是矩阵求导的知识。

1). 先决条件：和3.3.1类似，需要确认优化模型的假设函数和损失函数。对于线性回归，假设函数hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn 的矩阵表达方式为：hθ(x)=Xθ，其中，假设函数hθ(X)为mx1的向量,θ为(n+1)x1的向量，里面有n个代数法的模型参数。X为mx(n+1)维的矩阵。m代表样本的个数，n+1代表样本的特征数。损失函数的表达式为：J(θ)=12(Xθ−Y)T(Xθ−Y), 其中Y是样本的输出向量，维度为mx1.

2). 算法相关参数初始化:θ向量可以初始化为默认值，或者调优后的值。算法终止距离ε，步长α和3.3.1比没有变化。

　　　 3). 算法过程：

a）确定当前位置的损失函数的梯度，对于θ向量,其梯度表达式如下：∂∂θJ(θ)

b）用步长乘以损失函数的梯度，得到当前位置下降的距离，即α∂∂θJ(θ)对应于前面登山例子中的某一步。

c）确定θ向量里面的每个值,梯度下降的距离都小于ε，如果小于ε则算法终止，当前θ向量即为最终结果。否则进入步骤4.

d）更新θ向量，其更新表达式如下。更新完毕后继续转入步骤1.θ=θ−α∂∂θJ(θ)还是用线性回归的例子来描述具体的算法过程。损失函数对于θ向量的偏导数计算如下：∂∂θJ(θ)=XT(Xθ−Y) 步骤4中θ 向量的更新表达式如下：θ=θ−αXT(Xθ−Y)

　　　　对于3.3.1的代数法，可以看到矩阵法要简洁很多。这里面用到了矩阵求导链式法则，和两个矩阵求导的公式。公式1：∂∂X(XXT)=2X 公式2：∂∂θ(Xθ)=XT