线性回归

作者: 人生茫茫好似荒野 | 来源:发表于2020-07-02 17:09 被阅读0次

线性回归是机器学习中最基础最简单的回归算法了，现在关于线性回归的原理做一个总结。

关于线性的概念，其实在高中就有了解了，两个变量之间存在一次方函数关系( $y = a x + b$ )即为线性，其图像在平面上是一条直线。

而线性回归就是对给定的数据，找到一条均方误差最小的直线或者说模型函数。这就是线性回归的本质。

线性回归的模型函数

线性回归问题，给定的数据一般如下形式：
$\left[ \begin{matrix} x^{(0)}_1,x^{(0)}_2,...x^{(0)}_n,y_0 \\ x^{(1)}_1,x^{(1)}_2,...x^{(1)}_n,y_1 \\ x^{(2)}_1,x^{(2)}_2,...x^{(2)}_n,y_2 \\ \vdots \\ x^{(m)}_1,x^{(m)}_2,...x^{(m)}_n,y_m \end{matrix} \right]$

其中有m个样本，每个样本对应n维特征和一个输出结果。现在，我们的问题是对于一个新的数据 $(x_1^{(x)}, x_2^{(x)}, ..., x_n^{(x)})$ ，它对应的结果 $y_x$ 是多少呢？如果使用线性回归来解决这个问题，那么对应的模型应该如下：

$h_\theta(x_1,x_2,...,x_n)=\theta_0 + \theta_1x_1 +...+ \theta_nx_n$

我们增加一个 $x_0=1$ 的特征，可以简化成：

$h_\theta(x_0,x_1,...,x_n)=\sum\limits_{i=0}^{n}\theta_ix_i$

其中 $\theta_i(i=0,1,2,...n)$ 是模型参数， $x_i(i=0,1,2,...n)$ 是每个样本的n个特征值。

用矩阵形式表示上式就是：

$h_\theta(X)=X\theta$

其中 $X$ 为mxn维的矩阵， $\theta$ 为nx1的向量，得到的 $h_\theta(X)$ 为mx1的向量。m代表样本的个数，n代表样本的特征数。

正规方程（最小二乘法）求损失函数参数

线性回归一般采用均方误差作为损失函数，损失函数代数法可以表示为：

$J(\theta_0,\theta_1,...\theta_n) = \sum\limits_{i=1}^m(h_\theta(x_0^{(i)},x_1^{(i)},...x_n^{(i)})-y_i)^2$

用矩阵的方式可以表示为：
$\begin{align} J(\theta) &= ||X\theta-Y||^2_2 \\ &= (X\theta-Y)^T(X\theta-Y) \\ \end{align}$
上式中有两个2，上面的2表示平方，下面的2表示二范数。继续化简得：
$\begin{align} J(\theta) &= (X^T\theta^T-Y^T)(X\theta-Y) \\ &= X^T\theta^TX\theta-X^T\theta^TY-Y^TX\theta+Y^TY \\ &= X^T\theta^TX\theta-(\theta^TY)^T(X^T)^T-Y^TX\theta+Y^TY \\ &= X^T\theta^TX\theta-2Y^TX\theta+Y^TY \end{align}$
要求使损失函数最小时的参数 $\theta$ ，对 $\theta$ 进行求导，令导数为0：