线性回归

作者: 放开那个BUG | 来源:发表于2018-08-22 21:35 被阅读12次

机器学习实战——回归
线性回归模型
通俗得说线性回归算法（二）线性回归实战
第一次打卡
2020-02-14
逻辑回归和线性回归对比
算法概述-02
【机器学习实践】有监督学习：线性分类、回归模型
统计学习基础复习浓缩版
Linear Regression

写在最前面的几句话，我们下面所有的问题的符号规约如下：

$m$ 代表训练集中实例的数量

$x$ 代表输入变量

$y$ 代表目标变量

$(x, y)$ 代表训练集中的实例

$(x^{(i)}, y^{(i)})$ 代表第 $i$ 个实例

$x_i$ 表示第 $i$ 个变量

$h$ 代表学习算法的解决方案或函数，也成为假设（hypothesis）

$J$ 是代价函数

1、单变量线性回归

单变量的线性回归比较简单，一般表达式为 $h_\theta(x) = \theta_0 + \theta_1x$ ，现在我们来求代价函数。我们一般用平方差损失函数，即 $(h_\theta(x^{(i)}) - y^{(i)})^2$ ，因为我们求的是平均损失，而所有的样本个数为m，那么 $J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，后面为了方便计算，在 $m$ 旁边乘了个2，所以，原公式变为 $J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，我们的目标是让损失函数最小。
一个经典的优化方法是梯度下降法（Gradient Descent）。从公式可以看出，我们需要找到一个参数 $\theta_0$ 和 $\theta_1$ 使得损失函数最小。现在所有的 $x$ 和 $y$ 是已知的，所以 $J(\theta_0,\theta_1)$ 是关于 $\theta_0$ 和 $\theta_1$ 的函数（搞清楚这点很重要）。
现在我们考虑一个简单的情况，假设 $\theta_0$ 为0。那么损失函数变为 $J(\theta_1)$ ，如果我们对和 $\theta_1$ 取任意的值，最后可以组成如下图所示的图形

可以看出当 $J(\theta_1)$ 是关于 $\theta_1$ 的函数时，我们需要取到一个 $\theta_1$ 使得 $J(\theta_1)$ 最小。如果加上 $J(\theta_0)$ ，对 $J(\theta_0)，J(\theta_1)$ 任意取值，最后可以形成如图所示的图形

横轴为 $J(\theta_0)，J(\theta_1)$ ，数轴为 $J(\theta_0,\theta_1)$ 。所谓的梯度下降就是不断迭代 $J(\theta_0)，J(\theta_1)$ 使得损失函数最小。当然，一般的函数图像不会像这样的，一般都是这样像丘壑一样高低不平

梯度下降法（Gradient Descent）如下：首先我们需要对 $\theta_0,\theta_1$ 随机初始一个值，对应上图就是随机从图像的一点出发，然后不断更新 $\theta_0,\theta_1$ 。如图：

梯度下降这事怎么解释呢？首先我们很疑惑的是，为什么要减去导数？其实，我们只不过是沿着梯度的方向变化而已，而梯度的方向就是函数对各个变量偏导数的方向,我们需要这个方向，所以导数保留了，然后我们为什么乘 $\alpha$ ，就是因为我们可以任意变换在梯度方向的变化量。总而言之最重要的一点是，梯度的方向！！！方向！！！
我们还是以最简单的情况来看，即 $\theta_0 = 0$ ，

我们每次都 $J(\theta_1)$ 求导，那么沿着这个方向，我们不断变化然后取到最小值。
关于单变量的线性回归，我们可以求出他们需要更新值是：

推导很简单，直接将 $h_\theta(x)$ 展开成 $h_\theta(x) = \theta_0 + \theta_1x$ ，然后求偏导即可。

2、多变量线性回归

讲完了单变量线性回归，多变量就好讲了。多变量只不过多了很多 $x_i$ 的变量，它的目标函数变成了 $h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$ 。但是为了公式简洁（数学家就是强迫症），我们假设 $x_0 = 1$ ，则公式转化为 $h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$ ，然后代价函数是 $J(\theta_0,\theta_1,...,\theta_n) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，梯度下降算法为：

即：

求导之后得到（ $j$ 是第 $j$ 个变量）：

例如（其他的就不写了，这只是举个栗子）：

3、一些基础杂点

3.1特征缩放

为什么需要特征缩放。因为在多维问题中，如果每一个变量的取值范围都差不多，那么梯度下降很快。但是如果一个变量的取值为0-5，另一个为0-2000，那么分别以这两个参数为横坐标，绘制损失函数的等高线图，可以看出图像很扁，梯度下降需要很多次迭代才能收敛。

如果将所有特征缩放到-1到1之间（很多缩放方法，比如最大最小缩放之类的）

可以看出图像并没有那么扁，梯度下降很好收敛。

3.2正规方程（最小二乘法）

损失函数的另一种解法是正规方程，它能一步得到解。这种解法是很直观的数学解法，但是在特征维度很多的时候，在工程上没有任何优势，所以现在都是用梯度下降。

这是代数形式的正规方程，当时吴恩达老师说如果求每个 $\theta$ 的偏导会很麻烦，所以用了矩阵的形式表示，然后解出 $\theta$ ： $\theta = (X^TX)^{-1}X^TY$ ，这里 $\theta, X, Y$ 都是向量。这种解法作为了解了，毕竟现在都是梯度下降的天下了。

机器学习实战——回归
本章内容】线性回归局部加权线性回归岭回归和逐步线性回归例子【线性回归】 wHat = (X.T*X).I...
线性回归模型
参考：1.使用Python进行线性回归2.python机器学习：多元线性回归3.线性回归概念线性回归模型是线性模...
通俗得说线性回归算法（二）线性回归实战
前情提要：通俗得说线性回归算法（一）线性回归初步介绍一.sklearn线性回归详解 1.1 线性回归参数介绍完...
第一次打卡
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回...
2020-02-14
线性回归：线性回归分为一元线性回归和多元线性回归，一元线性回归用一条直线描述数据之间的关系，多元回归是用一条曲线描...
逻辑回归和线性回归对比
简单说几点线性回归和逻辑回归都是广义线性回归模型的特例。他们俩是兄弟关系，都是广义线性回归的亲儿子线性回归只能...
算法概述-02
1.逻辑回归和线性回归的联系和区别：逻辑回归和线性回归的都是广义的线性回归。线性回归是根据最小二乘法来建模，逻...
【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
统计学习基础复习浓缩版
1.简单线性回归 2.多元线性回归 3.多项式回归 4.广义线性回归(含逻辑斯谛回归）广义线性回归模型通过拟合响...
Linear Regression
在线性回归模型中，我们分为单元线性回归和多元线性回归（Multivariate Linear Regression...