线性回归

作者: 乐Aaron | 来源:发表于2019-06-28 23:16 被阅读0次

机器学习实战——回归
线性回归模型
通俗得说线性回归算法（二）线性回归实战
第一次打卡
2020-02-14
逻辑回归和线性回归对比
算法概述-02
【机器学习实践】有监督学习：线性分类、回归模型
统计学习基础复习浓缩版
Linear Regression

（来源：CommonLounge）

线性回归(Linear Regression)是一个简单的机器学习模型，用于解决回归问题。如：目标变量是一个实际的值。

一、问题示例

我们先从一个例子开始。假设我们有一个数据集，里面有房屋面积（以平方英尺为单位）和价格（以千美元计）信息。我们的任务是建立一个机器学习模型，能够根据房屋面积来预测价格。下图是我们的数据集内容：

用图形来表达数据集如下：

在线性回归中，我们将一条直线“拟合”到上面的数据点。图示如下：

举例说，有人盖一栋面积为1550平方的房屋，让我们预测将来出售的价格？从下图来看，我们看到对应 $x=1550$ ， $y$ 的值是200。

因此，我们预测这个房屋大概价格为$200k。

二、机器学习组成

每个机器学习的算法由三个部分组成：

1. 表示(Representation)

一个机器学习模型的表示决定了算法能学到什么（类型的）东西。在线性回归中，模型的表示就是一条直线。

2. 评价(Evaluation)

用代价函数(cost function)来对模型的优劣打分。例如：在线型回归中，表示方式可以有无限条直线。代价函数就是对每条线的优劣进行打分。“最佳路线”的代价最小。

3. 优化(Optimization)

优化就是给定一堆模型和代价函数里找到最佳模型。

这次我们先谈表示(representation)和评价(evaluation)。下次我们谈优化(梯度下降)。

三、线性回归

1. 简单线性回归

在简单线性回归(Simple Linear Regression)里，我们通过拟合一条称为回归线(regression line)的直线来建立目标变量和输入变量之间的关系。

通常，一条线可以用线性方程来表示： $y=mx+b$ 。其中， $y$ 是因变量(dependent variable), $x$ 是自变量(independent variable), $m$ 是斜率(slope), $b$ 是截距(intercept)。

在机器学习中，我们将方程改写为 $y_{w, b}(x)=w_{1}x_{1}+b$ ，其中 $b$ 和 $w_{1}$ 是模型的参数( $b$ 是偏差 bias， $w_{1}$ 是权值 weight)， $x_{1}$ 是输入， $y$ 是目标变量。

在房屋价格这个例子，输入 $x_{1}$ 为房屋的面积，目标变量 $y$ 则为价格。

当 $b$ 和 $w_{1}$ 的值不同，我们会看到不同的线，如下所示：

参数值的不同，模型将做出不同的预测。

例如：设 $(b, w_{1})=(0.0, 0.2)$ ，当第一个数据点 $x=3456$ ， $y_{ture}=600$ ；则这个模型预测结果为 $y_{w,b}(x)=0.2\times 3456+0.0=691.2$ 。当 $(b, w_{1})=(80.0, 0.15) ，$ 则预测结果为 $y_{w,b}(x)=0.15\times 3456+80.0=598.4$ ，这个结果更接近真实的结果 $y_{ture}=600$ 。

2. 多元线性回归

之前的方程 $y_{w,b}(x)=w_{1}x_{1}+b_{1}$ 可用于只有一个输入变量（也被称为特征）的情况。然后，我们通常需要处理含有多变量的数据集。比如在房屋价格模型里，我们可以加入多个特征：房间数量，房屋建成的年份等。

我们将这种多特征的模型称之为多元线性回归。参照上述简单线性回归的方程，我们可以得到多元线性回归方程如下：

$y_(w,b)(x) = w_{1}x_{1} + w_{2}x_{2} + ... + w_{k}x_{k}+b$

$x$ 是多个输入维度，针对每个维度有相应的权值 $w$ 。

在多元线性回归的情况下，我们的预测不是二维空间中的直线，而是n维空间中的超平面。例如，在3D中，我们的图如下所示：

四、符号解释

总结一下目前使用到的数学符号：

$n$ = 数据点的数量

$x$ = 输入变量/特征。通常 $x$ 可以是多维的： $x_{1},x_{2},...,x_{k}$

$y$ = 输出/目标变量。我们有时用 $y_{true}$ 来区分目标 $y$ 和预测 $y$

$(w,b)$ = 模型的权重和偏差。在线性回归里， $w$ 的数量等于输入变量 $x$ 的维度数量； $b$ 是一个标量

$y_{w,b}(x)$ = 预测函数。简写成这样 $y_{w,b}(\cdot)$ ， $w$ 和 $b$ 是 $y$ 是参数

另外，当我们讨论数据点的时候，我们会使用下面的数学符号：

$(x,y)$ = 某些数据点

$(x^i,y^i )$ = 第i个数据点

因此， $(x^1,y^1)=(3456,600)$ 代表第一栋房屋的面积为3456平方，价格为$600k

$y_{w,b}(x^i)$ 为第i个数据点的预测结果

五、残差(Residuals)

代价函数(cost function)基于目标值和预测值的差值定义成本，也称为残差。残差的图形化表示如下图：

六、代价函数(cost function)

如果一条线远离所有的点，残差则会很大，因此代价函数的值也很大。如果一条线接近所有的点，则残差会很小，则代价函数也如此。

代价函数是在给定参数 $b$ 和 $w$ 的情况下，衡量预测值y(x)与目标值 $y_{true}$ 的接近程度。也就是说，衡量一组特定参数对预测目标值的好坏程度。

我们用于线性回归的代价函数是均方误差(mean squared error)。我们遍历所有数据点，求每个预测值 $y(x)$ 和目标值 $y_{true}$ 的平方误差(squared error)的平均值。

$J(w)=\frac{1}{n}\sum_{i=1}^n(y_{w,b}(x^i)-y^i_{true})^2$

示例

继续之前的例子。第一个数据点 $x=3456$ , $y=600$ 。该模型的参数为 $(b,w_{1})=(0.0,0.2)$ 。基于此，我们计算出来的预测为 $y_{w,b}(x)=691.2$ 。因此，平均误差为 $(y_{w,b}(x)-y_{true})^2=(691.2-600)^2=91.2^2=8,317.44$ 。

类似的，我们对所有数据点的平方误差求和，再求平均值。另外两个数据点的平均误差为 $519.84$ 和 $2621.44$ ，得出平均值为 $J(w)=(8,317.44+519.84+2621.44)/3=3819.57$ 。

类似的，我们对权值 $(b,w_{1})=(80.0,0.15)$ 求均方误差，得到 $J(w)=(2.56+2.72+3648.16)/3=1217.81$ 。由于 $(b,w_{1})=(80.0,0.15)$ 的代价函数比 $(b,w_{1})=(0.0,0.2)$ 小，我们认为这组参数更好。

通过计算，我们发现权值为 $(b,w_{1})=(15.0,0.17)$ 的误差最小，其均方误差为 $J(w)=395.83$ 。

在下一个教程，我们会介绍通过梯度下降(gradient descent)方法找到最佳的权值。

为什么要用平均误差？

可能有人会问，为什么不直接用残差之和作为我们的代价函数？为何要平方？为何要平均？

1. 平方

平方使得不论残值的大小，都会给代价函数带来更大的影响(比线性带来的影响大)。结果是回归具有更均匀的残差，异常值更少的特点。这也使得不论是 $y_{true}>y(x)$ 或是 $y_{true}<y(x)$ ，残差都会使代价函数增长。

2. 平均

平均使得结果不受数据点的数量影响。简单的求合会造成结果值与数据点的数量成比例，求平均则不存在这个问题。平均也使得数据集之间的对比更容易，使得在不同问题空间中执行回归时结果更有意义。

七、用梯度下降(Gradient Descent)来优化

每个权重向量 $w$ 的值都会有对应的代价 $J(w)$ 。我们要找到代价最小的权值。图形化如下：

注：图中之所以用"全局(global)”是因为代价函数回归线是一条曲线。曲线有唯一的最小值（最小值的所有方向点都是平滑增长的）

给定一个线性回归模型和代价函数，我们可以用梯度下降(Gradient Descent)方法来寻找最佳的一组权重向量值。这个寻找最佳模型的过程就叫做优化(optimaization)。

八、总结

1. 在简单线性回归里，我们通过拟合一条直线，即回归线，来建立目标变量和输入变量的关系。

2. 在机器学习里，我们通常将线性回归线表达为一个方程： $y(x)=b+w_{1}x_{1}$ ，其中 $b$ 和 $w_{1}$ 是这个模型的参数， $x_{1}$ 是输入， $y$ 是目标变量。

3. $y(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{k}x_{k}+b$ 是多元线性回归模型，其特征为 $x_{1},x_{1},......,x_{k}$ 。

4. 我们用均方误差(mean squared error)代价函数来评价一个模型的好坏。代价最小，模型越好。

机器学习实战——回归
本章内容】线性回归局部加权线性回归岭回归和逐步线性回归例子【线性回归】 wHat = (X.T*X).I...
线性回归模型
参考：1.使用Python进行线性回归2.python机器学习：多元线性回归3.线性回归概念线性回归模型是线性模...
通俗得说线性回归算法（二）线性回归实战
前情提要：通俗得说线性回归算法（一）线性回归初步介绍一.sklearn线性回归详解 1.1 线性回归参数介绍完...
第一次打卡
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回...
2020-02-14
线性回归：线性回归分为一元线性回归和多元线性回归，一元线性回归用一条直线描述数据之间的关系，多元回归是用一条曲线描...
逻辑回归和线性回归对比
简单说几点线性回归和逻辑回归都是广义线性回归模型的特例。他们俩是兄弟关系，都是广义线性回归的亲儿子线性回归只能...
算法概述-02
1.逻辑回归和线性回归的联系和区别：逻辑回归和线性回归的都是广义的线性回归。线性回归是根据最小二乘法来建模，逻...
【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
统计学习基础复习浓缩版
1.简单线性回归 2.多元线性回归 3.多项式回归 4.广义线性回归(含逻辑斯谛回归）广义线性回归模型通过拟合响...
Linear Regression
在线性回归模型中，我们分为单元线性回归和多元线性回归（Multivariate Linear Regression...

线性回归

一、问题示例

二、机器学习组成

1. 表示(Representation)

2. 评价(Evaluation)

3. 优化(Optimization)

三、线性回归

1. 简单线性回归

2. 多元线性回归

四、符号解释

五、残差(Residuals)

六、代价函数(cost function)

示例

为什么要用平均误差？

1. 平方

2. 平均

七、用梯度下降(Gradient Descent)来优化

八、总结

相关文章

机器学习实战——回归

线性回归模型

通俗得说线性回归算法（二）线性回归实战

第一次打卡

2020-02-14

逻辑回归和线性回归对比

算法概述-02

【机器学习实践】有监督学习：线性分类、回归模型

统计学习基础复习浓缩版

Linear Regression

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读