线性回归|机器学习推导系列（三）

作者: 酷酷的群 | 来源:发表于2020-07-17 19:44 被阅读0次

线性回归|机器学习推导系列（三）
逻辑回归从零实现以及PyTorch实现
2 逻辑回归
理论-线性回归
机器学习笔记（5）：线性回归
2019-10-29
QR分解与线性回归
2019-02-17
Python编写线性回归算法
机器学习-线性回归公式推导

一、概述

假设有以下数据：

$D=\left \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right \}\\ x_{i}\in \mathbb{R}^{p},y_{i}\in \mathbb{R},i=1,2,\cdots ,N\\ X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21} & x_{22}& \cdots &x_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ x_{N1}& x_{N2} & \cdots & x_{Np} \end{pmatrix}_{N \times p}\\ Y=\begin{pmatrix} y_{1}\\ y_{2}\\ \vdots \\ y_{N} \end{pmatrix}_{N \times 1}$

这些数据符合下图关系（以一维数据为例），这里的函数 $f(w)$ 忽略了偏置 $b$ ：

图像

二、最小二乘估计

$L(w)=\sum_{i=1}^{N}\left \| w^{T}x_{i}-y_{i}\right \|_{2}^{2}\\ =\sum_{i=1}^{N}(w^{T}x_{i}-y_{i})^{2}\\ =\underset{\underset{\underset{w^{T}X^{T}-Y^{T}}{\underbrace{w^{T}\begin{pmatrix} x_{1} & x_{2} & \cdots & x_{N} \end{pmatrix}-\begin{pmatrix} y_{1} & y_{2} & \cdots & y_{N} \end{pmatrix}}}}{\underbrace{\begin{pmatrix} w^{T}x_{1} & w^{T}x_{2} & \cdots & w^{T}x_{N} \end{pmatrix}-\begin{pmatrix} y_{1} & y_{2} & \cdots & y_{N} \end{pmatrix}}}}{\underbrace{\begin{pmatrix} w^{T}x_{1}-y_{1} & w^{T}x_{2}-y_{2} & \cdots & w^{T}x_{N}-y_{N} \end{pmatrix}}}\begin{pmatrix} w^{T}x_{1}-y_{1}\\ w^{T}x_{2}-y_{2}\\ \vdots \\ w^{T}x_{N}-y_{N} \end{pmatrix}\\ =(w^{T}X^{T}-Y^{T})(Xw-Y)\\ =w^{T}X^{T}Xw-w^{T}X^{T}Y-Y^{T}Xw+Y^{T}Y\\ =w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y$

接下来通过对 $w$ 求导就可以解得参数w：

$\hat{w}=argminL(w)\\ \frac{\partial L(w)}{\partial w}=2X^{T}Xw-2X^{T}Y=0\\ 得出w=\underset{X^{+}，伪逆}{\underbrace{(X^{T}X)^{-1}X^{T}}}Y$

以上未考虑偏执 $b$ ，如果考虑的话则可以为 $w$ 添加一个维度，同时也为 $x$ 添加一个维度并使得添加的维度的值为 $1$ ，然后使用同样的求解方法即可。.

三、线性回归的几何解释

每个样本点的误差的总和

使用最小二乘法可以看做损失函数是每个样本的误差的总和，每个样本的误差即是 $y_{i}$ 与 $w^{T}x_{i}$ 的差，如下图所示：

误差的来源

$Y$ 在 $X$ 的列空间上的投影

一组向量的生成子空间（span）是原始向量线性组合后所能抵达的点的集合。确定方程 $Ax=b$ 是否有解，相当于确定向量 $b$ 是否在 $A$ 列向量的生成子空间中。这个特殊的生成子空间被称为 $A$ 的列空间（column space）或者 $A$ 的值域（range）。

我们的目的是为了求解 $w$ 使得 $Xw=Y$ ，显然这个方程一般是无解的，即 $Y$ 一般不在 $X$ 的列空间中，因为样本点一般是散落在某条直线周围，所有的样本点准确地落在同一条直线上的情况少之又少。

对于 $Xw=f(w)$ ，为了使 $f(w)$ 与 $Y$ 最接近，则 $f(w)$ 就应该是 $Y$ 在 $X$ 的列空间中的投影，如下图所示，以 $p=2$ 为例：

投影

$Y-Xw$ 就应该与每一个 $\begin{pmatrix} x_{1i}\\ x_{2i}\\ \vdots \\ x_{Ni} \end{pmatrix}$ 都垂直，即 $X^{T}(Y-Xw)=0_{p\times1}$ ，则可以直接解得 $w=(X^{T}X)^{-1}X^{T}Y$ 。

四、最小二乘法与极大似然估计

可以认为实际值与估计值之间的差是一个高斯噪声，即 $y$ 和 $f(w)$ 满足关系 $y=f(w)+\varepsilon =w^{T}x+\varepsilon$ ，其中 $\varepsilon$ 是高斯噪声，满足 $\varepsilon\sim N(0,\sigma ^{2})$ ，因此 $y|x;w\sim N(w^{T}x,\sigma ^{2})$ ，即 $P(y|x;w)=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}\right \}$ 可以使用极大似然估计法来进行求解：

$L(w)=logP(Y|X;w)\\ =log\prod_{i=1}^{N}P(y_{i}|x_{i};w)\\ =\sum_{i=1}^{N}logP(y_{i}|x_{i};w)\\ =\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi }}+log\, exp\left \{-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma ^{2}}\right \})\\ =\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi }}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma ^{2}})\\ \hat{w}=\underset{w}{argmax}L(w)\\ =\underset{w}{argmax}\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi }}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma ^{2}})\\=\underset{w}{argmax}\sum_{i=1}^{N}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma ^{2}}\\ =\underset{w}{argmin}\sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}\\ =\underset{w}{argmin}\sum_{i=1}^{N}\left \| w^{T}x_{i}-y_{i}\right \|_{2}^{2}\\ (最小二乘法)$

可以看到最小二乘法与噪声为高斯噪声时的极大似然估计法是等价的。

五、线性回归的正则化

高维小样本的问题

$\hat{w}=(X^{T}X)^{-1}X^{T}Y$

当样本数 $N$ 远大于维度 $p$ 时 $X^{T}X$ 可逆，而当出现高维小样本的情况即维度 $p$ 大于样本数 $N$ 时， $X^{T}X$ 就不可逆，这种时候就容易出现过拟合的情况。

处理过拟合的方法

面对上述过拟合的现象有一些解决方案，主要有 $\left\{\begin{matrix} 增加数据量\\ 特征选择/特征提取\\ 正则化 \end{matrix}\right.$

特征选择指的是根据某种规则去掉一些特征来实现降维；特征提取的方法例如主成分分析（PCA），也是实现降维；正则化的方法指给损失函数添加惩罚项来避免过拟合。

正则化的方法

通过最小化 $J(w)=\underset{loss}{\underline{L(w)}}+\lambda \underset{penalty}{\underline{P(w)}}$ 来实现正则化，主要有L1正则化和L2正则化（也叫岭回归、权重衰减）。

$\left\{\begin{matrix} L1正则化(Lasso)：P(w)=\left \| w\right \|_{1}\\ L2正则化(Ridge)：P(w)=\left \| w\right \|_{2}^{2} \end{matrix}\right.$

下面为L2正则化的求解过程：

$J(w)=L(w)+\lambda P(w)\\ =(w^{T}X^{T}-Y^{T})(Xw-Y)+\lambda w^{T}w\\ =w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y+\lambda w^{T}w\\ =w^{T}(X^{T}X+\lambda I)w-2w^{T}X^{T}Y+Y^{T}Y\\ \hat{w}=\underset{w}{argmin}J(w)\\ \frac{\partial J(w)}{\partial w}=2(X^{T}X+\lambda I)w-2X^{T}Y=0\\ \hat{w}=(X^{T}X+\lambda I)^{-1}X^{T}Y$

半正定矩阵 $X^{T}X$ 加上对角矩阵 $\lambda I$ 一定是可逆的，可以解决 $X^{T}X$ 可能不可逆带来的问题。

六、最小二乘法与最大后验估计

已知

仍然认为实际值与估计值之间的差是一个高斯噪声，即 $y$ 和 $f(w)$ 满足关系:

$y=f(w)+\varepsilon =w^{T}x+\varepsilon \\ 其中\varepsilon是高斯噪声，满足\varepsilon\sim N(0,\sigma ^{2})\\ 因此y|x;w\sim N(w^{T}x,\sigma ^{2})，即P(y|x;w)=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}\right \}$

另外假设参数 $w$ 的服从先验分布：

$w\sim N(0,\sigma _{0}^{2})，即P(w)=\frac{1}{\sqrt{2\pi }\sigma_{0}}exp\left \{-\frac{\left \| w\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \}\\ 后验概率为P(w|Y)=\frac{P(Y|w)P(w)}{P(Y)}(这里的Y指Y|X，为书写简单而省略。)$

最大后验估计法求解参数 $w$

$\hat{w}=\underset{w}{argmax}P(w|Y)\\ =\underset{w}{argmax}\frac{P(Y|w)P(w)}{P(Y)}\\ =\underset{w}{argmax}P(Y|w)P(w)\\ =\underset{w}{argmax}\, logP(Y|w)P(w)\\ =\underset{w}{argmax}\, log\prod_{i=1}^{N}P(y_{i}|w)P(w)\\ =\underset{w}{argmax}\sum_{i=1}^{N}logP(y_{i}|w)P(w)\\ =\underset{w}{argmax}\sum_{i=1}^{N}log(\frac{1}{\sqrt{2\pi }\sigma}\frac{1}{\sqrt{2\pi }\sigma_{0}}exp\left \{-\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}-\frac{\left \| w\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \})\\ =\underset{w}{argmax}\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi }\sigma}\frac{1}{\sqrt{2\pi }\sigma_{0}}+log\, exp\left \{-\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}-\frac{\left \| w\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \})\\ =\underset{w}{argmax}\sum_{i=1}^{N}(-\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}-\frac{\left \| w\right \|_{2}^{2}}{2\sigma _{0}^{2}})\\ =\underset{w}{argmin}\sum_{i=1}^{N}(\frac{(y-w^{T}x)^{2}}{2\sigma ^{2}}+\frac{\left \| w\right \|_{2}^{2}}{2\sigma _{0}^{2}})\\ =\underset{w}{argmin}\sum_{i=1}^{N}(\underset{LSE}{\underbrace{(y-w^{T}x)^{2}}}+\underset{\lambda }{\underbrace{\frac{\sigma ^{2}}{\sigma _{0}^{2}}}}\left \| w\right \|_{2}^{2})$

可以看到正则化的最小二乘法与噪声为高斯噪声且先验也是高斯分布时的最大后验估计法是等价的。

总结

$LSE\Leftrightarrow MLE(noise为Gaussian Distribution)\\ Regularized \: LSE\Leftrightarrow MAP(noise、prior为Gaussian Distribution)$

线性回归|机器学习推导系列（三）
一、概述假设有以下数据：这些数据符合下图关系（以一维数据为例），这里的函数忽略了偏置：二、最小二乘估计接下...
逻辑回归从零实现以及PyTorch实现
逻辑回归原理参考链接：线性分类|机器学习推导系列（四）[https://www.jianshu.com/p/4e7...
2 逻辑回归
逻辑回归是线性回归的变形，看了很多机器学习书籍，吴恩达的课程对线性回归和逻辑回归的讲解非常清晰，原理性和推导都很好...
理论-线性回归
2018.04.25更新：最小二乘法公式推导谷歌关键词：机器学习最小二乘法线性回归公式推导参考链接： ...
机器学习笔记（5）：线性回归
本文来自之前在Udacity上自学机器学习的系列笔记。这是第5篇，介绍了监督学习中的线性回归模型。线性回归回归这...
2019-10-29
Day2 简单线性回归模型机器学习入门--简单线性回归机器学习算法之线性回归算法导入库matplotlib 绘...
QR分解与线性回归
1 一元回归与多元回归任何一本初级水平的计量经济学、统计学或机器学习相关书籍，都会详细推导多元线性线性回归的解，...
2019-02-17
机器学习系列机器学习100天机器学习第1天：数据预处理机器学习第2天：简单线性回归模型机器学习第3天：多元...
Python编写线性回归算法
Python编写线性回归算法前言线性回归（Linear Regression）是机器学习的基础，作为机器学习算...
机器学习-线性回归公式推导
给定一系列散点(xi,yi)分布符合线性回归,求回归方程式h(x) = wx+b 已知条件:X=[x1,x2,x3...