线性回归算法（Linear Regression）

作者: 格物致知Lee | 来源:发表于2019-03-14 15:11 被阅读0次

深入浅出学AI：第二章机器学习一览
吴恩达机器学习（第一周）
Linear Regression（线性回归）
Python编写线性回归算法
使用Tesorflow实现线性回归
Linear regression
[机器学习Lesson 2]代价函数之线性回归算法
机器学习算法的优缺点
Linear Regression线性回归
线性回归、岭回归、Lasso回归、ElasticNet回归

线性回归（linear regression）是由统计学演变出的常用机器学习模型。其主要思想是通过模型去描述自变量 $x$ 和因变量 $y$ 之间的关系。往模型中输入 $x$ ，便得到与之对应的 $y$ 。接下来我们一步步的解释线性回归模型。

一，线性回归模型

我们的有m个样本，每个样本有n个特征和一个对应的结果，如下：

$(x_1^{(0)}, x_2^{(0)}, ...x_n^{(0)}, y_0), (x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)},y_1), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$

对于以上数据，我们建立一个线性回归模型：

$h_\theta(x_1, x_2, ...x_n) = \theta_0 + \theta_{1}x_1 + ... + \theta_{n}x_{n}$

则对于样本 $(x_1^{(0)}, x_2^{(0)}...x_n^{(0)})$ 有：

$h_\theta(x_1^{(0)}, x_2^{(0)}, ...x_n^{(0)}) = \theta_0 + \theta_{1}x_1^{(0)} + ... + \theta_{n}x_{n}^{(0)} = (1,x_1^{(0)}, x_2^{(0)}, ...x_n^{(0)})\bullet (\theta_0,\theta_1...\theta_n)$

$=\vec{X^{(0)}} \bullet \vec{\theta }$

进一步用矩阵形式表达为：

$h_\mathbf{\theta}(\mathbf{X}) = \mathbf{X\vec{\theta }} = \begin{equation}{\left[ \begin{array}{ccc}\vec{X^{(0)} }\bullet \vec{\theta } \\\vec{X^{(1)}}\bullet \vec{\theta } \\.\\.\\\vec{X^{(m)}}\bullet \vec{\theta } \end{array} \right ]}\end{equation}$ $=\begin{equation}{\left[ \begin{array}{ccc}(1,x_1^{(0)}, x_2^{(0)}, ...x_n^{(0)})\bullet (\theta_0,\theta_1...\theta_n)\\(1,x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)})\bullet (\theta_0,\theta_1...\theta_n) \\.\\.\\(1,x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)})\bullet (\theta_0,\theta_1...\theta_n) \end{array} \right ]}\end{equation}$

一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下：

$J(\theta_0, \theta_1..., \theta_n) = \sum\limits_{i=0}^{m}(h_\theta(x_0^i, x_1^i, ...x_n^i) - y_i)^2$

进一步用矩阵可以表示为：

$J(\vec{\theta }) =(\mathbf{X\vec{\theta }} - \mathbf{Y})^T(\mathbf{X\vec{\theta }} - \mathbf{Y})$

二，损失函数最小化

1.最小二乘法

损失函数定义为： $J(\vec{\theta }) =(\mathbf{X\vec{\theta }} - \mathbf{Y})^T(\mathbf{X\vec{\theta }} - \mathbf{Y})$

根据最小二乘法的原理，我们要对这个损失函数对 $\theta$ 向量求导取0。结果如下式：

$\begin{align} J(\vec{\theta }) &= (\vec{X}\vec{\theta } -\vec{Y} )^T(\vec{X}\vec{\theta } -\vec{Y}) \\ &= (\vec{\theta }^T\vec{X}^T-\vec{Y}^T)(\vec{X}\vec{\theta }-\vec{Y}) \\ &= \vec{\theta }^T\vec{X}^T\vec{X}\vec{\theta } - w^T\vec{X}^T\vec{Y} - \vec{Y}^T\vec{X}\vec{\theta } + \vec{Y}^T\vec{Y} \\ &= \vec{\theta }^T\vec{X}^T\vec{X}\vec{\theta } - \vec{Y}^T\vec{X}\vec{\theta } - \vec{Y}^T\vec{X}\vec{\theta } + \vec{Y}^T\vec{Y} \\ &= \vec{\theta }^T\vec{X}^T\vec{X}\vec{\theta }- 2\vec{Y}^T\vec{X}\vec{\theta } + \vec{Y}^T\vec{Y} \\\end{align}$

$\frac{\partial}{\partial\vec{\theta }}J(\vec{\theta }) = 2\mathbf{X}^T\mathbf{X\vec{\theta }} - 2\mathbf{X}^T\mathbf{Y}=2\mathbf{X}^T(\mathbf{X\vec{\theta }} - \mathbf{Y}) = 0$

最后可以得到： $\vec{\theta } = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y}$ ，有了具体的数据 $X,Y$ 我们就可以计算出 $\vec{\theta }$

2.梯度下降法

1）确定当前位置的损失函数的梯度，对于 $\vec{\theta }$ 梯度下降表达式为： $\frac{\partial}{\partial\vec{\theta }}J(\vec{\theta })$

2）用步长 $\alpha$ 乘以损失函数的梯度，得到当前位置下降的距离，即 $\alpha\frac{\partial}{\partial\vec{\theta }}J(\vec{\theta })$

3）确定 $\theta$ 向量里面的每个值,梯度下降的距离都小于设定值 $\xi$ ，如果小于 $\xi$ 则算法终止，当前 $\vec{\theta }$ 向量即为最终结果。否则进入步骤4.

4）更新 $\theta$ ，其更新表达式如下。更新完毕后继续转入步骤1.

$\vec{\theta }= \vec{\theta } - \alpha\frac{\partial}{\partial\vec{\theta }}J(\vec{\theta })$

我们用向量来进行表示，损失函数对于 $\theta$ 的偏导数计算如下：

$\frac{\partial}{\partial\vec{\theta }}J(\vec{\theta }) = \mathbf{X}^T(\mathbf{X\vec{\theta }} - \mathbf{Y})$

那么步骤4中，更新 $\vec{\theta }$ 则为： $\vec{\theta }=\vec{\theta } - \alpha\mathbf{X}^T(\mathbf{X\vec{\theta }} - \mathbf{Y})$ 。

三，正则化

为了防止模型的过拟合，我们在建立线性模型的时候经常需要加入正则化项。一般有L1正则化和L2正则化。

1.L1正则化

线性回归的L1正则化通常称为Lasso回归，它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个惩罚系数 $\alpha$ 来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：

$J(\vec{\theta }) = \frac{1}{2}(\mathbf{X\vec{\theta }} - \mathbf{Y})^T(\mathbf{X\vec{\theta }} - \mathbf{Y}) + \alpha||\vec{\theta }||_1$

其中 $||\vec{\theta} ||_1 = \theta_0+\theta_1+...+\theta_n$ ， $\alpha$ 为惩罚系数， $\alpha$ 越大，对 $\vec{\theta }$ 的限制越大。Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。

2.L2正则化

线性回归的L2正则化通常称为Ridge回归，它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项。具体Ridge回归的损失函数表达式如下：

$J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y}) + \frac{1}{2}\alpha||\theta||_2^2$

其中 $||\theta||_2 = \sqrt{\theta_0^2,\theta_1^2,\theta_2^2...,\theta_n^2}$ ， $\alpha$ 为惩罚系数， $\alpha$ 越大，对 $\vec{\theta }$ 的限制越大。Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归比，这会使得模型的特征留的特别多，模型解释性差。

下图为 $\alpha$ （X轴）与 $\vec{\theta }$ （Y轴）之间的关系：

看到这里你可能有个疑问，L1，L2之间有什么区别么？

下面给出直观的解释：

L1正则

L2正则

小伙伴们如果觉得文章还行的请点个赞呦！！同时觉得文章哪里有问题的可以评论一下谢谢你！

深入浅出学AI：第二章机器学习一览
一、按照算法类型分类 1.回归算法(Regression) 线性回归(Linear Regression or S...
吴恩达机器学习（第一周）
1.单变量线性回归(Linear Regression with One Variable) 1.1线性回归算法 ...
Linear Regression（线性回归）
Linear Regression 线性回归(Linear Regression)，就是希望通过构建线性模型来对连...
Python编写线性回归算法
Python编写线性回归算法前言线性回归（Linear Regression）是机器学习的基础，作为机器学习算...
使用Tesorflow实现线性回归
我们用Tensorflow实现线性回归（linear regression learning）算法：首先，导入需...
Linear regression
今天分享一个很经典的ML算法---LIner regression(线性回归) 线性回归（Linear regre...
[机器学习Lesson 2]代价函数之线性回归算法
本章内容主要是介绍：单变量线性回归算法（Linear regression with one variable） ...
机器学习算法的优缺点
机器学习算法的优缺点机器学习算法的优缺点线性回归 Linear Regression 逻辑回归 Logisti...
Linear Regression线性回归
Welcome To My Blog Linear Regression 线性回归(Linear Regressi...
线性回归、岭回归、Lasso回归、ElasticNet回归
1. 线性回归(Linear Regression) 1.1 简述在统计学中，线性回归（Linear Regre...