线性回归与梯度下降

作者: handsomemao666 | 来源:发表于2022-01-17 21:31 被阅读0次

梯度下降
ML-梯度下降代码-线性回归为例
用人话讲明白梯度下降Gradient Descent（以求解多元
第2章单变量&多变量线性回归
Machine Learning 学习笔记-线性回归
机器学习系列（十六）——随机梯度下降Stochastic Gra
2020-08-19--梯度下降法01
线性回归与梯度下降
线性回归与梯度下降
线性回归与梯度下降

一、单变量线性回归

让我们通过一个例子来开始：这个例子是预测住房价格的，我们要使用一个数据集，数据集包含俄勒冈州波特兰市的住房价格。在这里，我要根据不同房屋尺寸所售出的价格，画出我的数据集。

波士顿房价

我们将要用来描述这个回归问题的标记如下:

$m$ 代表训练集中实例的数量
$x$ 代表特征/输入变量
$y$ 代表目标变量/输出变量
$\left( x,y \right)$ 代表训练集中的实例
$({{x}^{(i)}},{{y}^{(i)}})$ 代表第 $i$ 个观察实例
$h$ 代表学习算法的解决方案或函数也称为假设（hypothesis）

单变量线性回归
这就是一个监督学习算法的工作方式，我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学习算法，学习算法的工作了，然后输出一个函数，通常表示为小写

h

表示。

h

代表hypothesis(假设)，

h

表示一个函数，输入是房屋尺寸大小，就像你朋友想出售的房屋，因此

h

根据输入的

x

值来得出

y

值，

y

值对应房子的价格因此，

h

是一个从

x

到

y

的函数映射。
一种可能的表达方式为：

h_\theta \left( x \right)=\theta_{0} + \theta_{1}x

，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

二、代价函数

$h_\theta \left( x \right)=\theta_{0}+\theta_{1}x$ 。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距（下图中蓝线所指）就是建模误差（modeling error）。

建模误差
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数

J \left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}

最小。
我们绘制一个等高线图，三个坐标分别为

\theta_{0}

和

\theta_{1}

和

J(\theta_{0}, \theta_{1})

：

代价函数

三、梯度下降

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 $J(\theta_{0}, \theta_{1})$ 的最小值。

梯度下降背后的思想是：开始时我们随机选择一个参数的组合 $\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right)$ ，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到找到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

梯度下降
批量梯度下降（batch gradient descent）算法的公式为：

梯度下降公式

其中 $a$ 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

四、多维特征

目前为止，我们探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为 $\left( {x_{1}},{x_{2}},...,{x_{n}} \right)$ 。

增添更多特征后，我们引入一系列新的注释：

$n$ 代表特征的数量

${x^{\left( i \right)}}$ 代表第 $i$ 个训练实例，是特征矩阵中的第 $i$ 行，是一个向量（vector）。

比方说，上图的

${x}^{(2)}\text{=}\begin{bmatrix} 1416\\ 3\\ 2\\ 40 \end{bmatrix}$ ，

${x}_{j}^{\left( i \right)}$ 代表特征矩阵中第 $i$ 行的第 $j$ 个特征，也就是第 $i$ 个训练实例的第 $j$ 个特征。

如上图的 $x_{2}^{\left( 2 \right)}=3,x_{3}^{\left( 2 \right)}=2$ ，

支持多变量的假设 $h$ 表示为： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$ ，

这个公式中有 $n+1$ 个参数和 $n$ 个变量，为了使得公式能够简化一些，引入 $x_{0}=1$ ，则公式转化为： $h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

此时模型中的参数是一个 $n+1$ 维的向量，任何一个训练实例也都是 $n+1$ 维的向量，特征矩阵 $X$ 的维度是 $m*(n+1)$ 。因此公式可以简化为： $h_{\theta} \left( x \right)={\theta^{T}}X$ ，其中上标 $T$ 代表矩阵转置。

五、多变量梯度下降

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即： $J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$ ，

其中： $h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$ ，

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法为：

image.png

image.png
求导数后得到：

image.png
当

n>=1

时，

{{\theta }{0}}:={{\theta }{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x{0}^{(i)}

${{\theta }{1}}:={{\theta }{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x{1}^{(i)}$

${{\theta }{2}}:={{\theta }{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x{2}^{(i)}$

我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

六、梯度下降法实践-特征缩放

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

image.png

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如图：

image.png

七、梯度下降法实践-学习率

image.png
梯度下降算法的每次迭代受到学习率的影响，如果学习率

a

过小，则达到收敛所需的迭代次数会非常高；如果学习率

a

过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率：

$\alpha=0.01，0.03，0.1，0.3，1，3，10$

八、特征与多项式回归

$h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}\times{frontage}+{\theta_{2}}\times{depth}$

${x_{1}}=frontage$ （临街宽度）， ${x_{2}}=depth$ （纵向深度）， $x=frontage*depth=area$ （面积），则： ${h_{\theta}}\left( x \right)={\theta_{0}}+{\theta_{1}}x$ 。线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}$ 或者三次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}$

image.png
注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

九、scikit-learn基于梯度下降实现线性回归

from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor()
%time sgd_reg.fit(X_train_standard, y_train)
sgd_reg.score(X_test_standard, y_test)

十、scikit-learn实现多项式回归

X = np.arange(1, 11).reshape(-1, 2)
# output:
array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10]])

poly = PolynomialFeatures(degree=2)
poly.fit(X)
X2 = poly.transform(X)
# output:
array([[   1.,    1.,    2.,    1.,    2.,    4.],
       [   1.,    3.,    4.,    9.,   12.,   16.],
       [   1.,    5.,    6.,   25.,   30.,   36.],
       [   1.,    7.,    8.,   49.,   56.,   64.],
       [   1.,    9.,   10.,   81.,   90.,  100.]])


x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

poly_reg = Pipeline([
    ("poly", PolynomialFeatures(degree=2)),
    ("std_scaler", StandardScaler()),
    ("lin_reg", LinearRegression())
])
poly_reg.fit(X, y)
y_predict = poly_reg.predict(X)

梯度下降
线性回归梯度下降
ML-梯度下降代码-线性回归为例
梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降
用人话讲明白梯度下降Gradient Descent（以求解多元
文章目录1.梯度2.多元线性回归参数求解3.梯度下降4.梯度下降法求解多元线性回归梯度下降算法在机器学习中出现频...
第2章单变量&多变量线性回归
单变量线性回归梯度下降法 Gradient descent 用梯度下降法最小化代价函数J 多变量线性回归 mul...
Machine Learning 学习笔记-线性回归
平方差梯度下降线性回归
机器学习系列（十六）——随机梯度下降Stochastic Gra
随机梯度下降法Stochastic Gradient Descent 在之前的梯度下降法解决线性回归问题中，梯度向...
2020-08-19--梯度下降法01
梯度下降法简介多元线性回归中的梯度下降法随机梯度下降法梯度下降法的调试 1.梯度下降法简介不是一个机器学...
线性回归与梯度下降
背景学习深度学习已经一段时间了，但是学习过程中总觉得缺了点什么，无从动手编程。因此，我还是希望使用写文章的方式来...
线性回归与梯度下降
一、环境搭建 1.学习使用Anaconda：用管理员权限运行Prompt 用途方法创建环境conda creat...
线性回归与梯度下降
一、单变量线性回归让我们通过一个例子来开始：这个例子是预测住房价格的，我们要使用一个数据集，数据集包含俄勒冈州波...