美文网首页线性回归
线性回归学习笔记

线性回归学习笔记

作者: 月夜枫YYF | 来源:发表于2019-02-03 23:37 被阅读1次

    线性回归 Linear Regression

    一. 最小二乘法及其集合意义

    1.1 问题展示

    1.2 数据集的矩阵表示

    D = {(x_1, y_1), ..., (x_i, y_i)}
    X_i \in R^p, Y \in R, i = 1 ... N
    X = (x_1 x_2 ... x_n)^T = \begin{pmatrix} x_1^T \\\\ x_2^T \\\\ ... \\\\x_N^T \end{pmatrix} = \begin{pmatrix} x_11 & x_12 & ... & x_1p \\\\ x_21 & x_22 & ... & x_2p \\\\ ... & ... & ... & ... \\\\ x_N1 & x_N2 & ... & x_Np \end{pmatrix}
    Y = \begin{pmatrix} y_1 \\\\ y_2 \\\\ ... \\\\ y_N \end{pmatrix}

    1.3 最小二乘估计

    L(\omega) = \sum_{i = 1}^N \parallel\omega^Tx_i - y_i \parallel^2 = \sum_{i = 1}^N (\omega^Tx_i - y_i)^2 \\\\ = (\omega^Tx_1 - y_1 \omega^Tx_2 - y_2 ... \omega^Tx_N - y_N) \begin{pmatrix}\omega^Tx_1 - y_1 \\\\ \omega^Tx_2 - y_2 \\\\ ... \\\\ \omega^Tx_N - y_N \end{pmatrix} \\\\ = \omega^T(x_1 x_2 ... x_N) - (y_1 y_2 ... y_N) \\\\ = (\omega^TX^T - Y^T)(\omega - Y)
    L(\omega) = (\omega^TX^T - Y^T)(X\omega - Y) \\\\ = \omega^TX^TX\omega - \omega^TX^TY - Y^TX\omega + Y^TY
    由于四项均为一维数值,且中间两项的矩阵形式互逆,因此中间两项数值相等,可以约去为
    L(\omega) = \omega^TX^TX\omega - 2\omega^TX^TY + Y^TY
    因此可得,
    \hat{w} = argmin L(\omega)
    \frac{\alpha L(\omega)}{\alpha\omega} = 2 X^TX\omega - 2X^TY = 0
    最终求得
    \hat{\omega} = (X^TX)^-1X^TY
    其中(X^TX)^-1X^T称为X的伪逆,可直接通过编程套件求出

    1.4 p维子空间的视角

    加入我们以这样的视角来看f(\omega)
    f(\omega) = \omega^Tx = x^T\beta
    那么每个x是一个(1 x p) 的向量,整个X^T矩阵则可以看作是一个p维的子空间(p x N).
    Y则可以看作是在这个p维空间之外的一个向量. 这是因为f(x^T\beta)是关于x^T的线性组合,一定也位于这个p维子空间内。而由于噪声和不确定性的存在,Y不可能与某一个任何一个f(x^T\beta)完全重合,因此一定在该子空间外部。
    此时最优化的目标就是最小化噪声和不确定性,即最小化Y与子空间的距离,那么所求的\hat{\beta}一定位于Y在该平面的投影上(这里的这名目前还不是很清晰), 那么Y在平面上的法向量为X^T(Y - X\beta). 由于法向量一定垂直于任何一维,最终可以得到
    X^T(Y - X\beta) = 0
    最终得
    \hat{\beta} = (X^TX)^-1X^TY
    因此从几何角度来看是一样的。

    二. 最小二乘法的概率视角

    2.1 定义噪声

    设噪声为
    \epsilon \sim N(0, \sigma^2)
    则实际的y值可理解为\hat{y}加上噪声,即
    y = f(\omega) + \epsilon
    其中
    f(\omega) = \omega^Tx
    由于\epsilon服从正态分布,我们可以认为关于\epsilon的线性变换也服从正太分布,即
    y\vert x,\omega \sim N(\omega^Tx, \sigma^2)
    因此可得概率密度函数
    P(y \vert x; \omega) = \frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}

    2.2 极大似然估计

    由上节的概率密度函数,可得Y的似然函数
    L(\omega) = logP(Y\vert X; W) \\\\ = log\prod_{i=1}^NP(y_i\vert x_i; \omega) \\\\ = \sum_{i=1}^NlogP(y_i\vert x_i; \omega) = \sum_{i=1}^Nlog (\frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}) \\\\ = \sum_{i=1}^N(log\frac{1}{\sqrt{2} \sigma} - \frac{1}{2\sigma^2} (y_i - \omega^Tx_i)^2)
    因此可以根据极大似然法求得\omega的最优解
    \hat{\omega} = argmax_{\omega} L(\omega)
    经化简可得
    \hat{\omega} = argmin_{\omega}(y_i - \omega^Tx_i)
    与最小二乘法一致,因此得证

    2.3 结论

    最小二乘估计等价于噪声为高斯分布的极大似然估计
    LSE \Leftrightarrow MLE \ (noise \ is \ Gaussian)

    三. 线性回归的正则化

    3.1 引入正则化的原因

    \hat{\omega} = (X^TX)^-1X^TY
    其中(X^TX)^-1 部分在很多情况下是不可逆的,往往是因为不满足N >> p。本质上还是样本数据相对于维度太少。
    从计算上讲是不可求逆,从现象上将式过拟合
    因此需要引入正则化

    3.2 正则化的基本框架

    argmin_{\omega} L(\omega) + \lambda P(\omega)
    第一项为损失函数,第二项为惩罚项

    3.3 lasso正则化

    3.4 ridge正则化

    P(\omega) = \omega^T \omega
    J(\omega) = \sum_{i = i}^N \parallel \omega^Tx_i - y_i \parallel^2 + \lambda \omega^T \omega
    采用矩阵形式化简,得
    \hat{\omega} = argmin_{\omega} J(\omega)
    经化简和求导,得
    \hat{w} = (X^TX + \lambda I)^-1X^TY
    由于X^TX是一个半正定矩阵,它加上一个对角矩阵就一定是一个正定矩阵,因此一定可求逆。
    X^TX + \lambda I的数学形式看,L2正则化又名“权值衰减正则化”

    四. L2正则化的概率视角

    4.1 前提假设

    由上文所述,标准LSE等同于噪音为Gaussian的MLE,因此已知
    y\vert x,\omega \sim N(\omega^Tx, \sigma^2)
    P(y \vert x; \omega) = \frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}
    这里我们假设\omega的也服从正态分布
    \omega \sim N(0, \sigma^2)
    因此可知
    P(\omega) = \frac{1}{\sqrt{2}\sigma^2} \exp {- \frac{\parallel \omega \parallel^2}{2\sigma^2}}

    4.2 贝叶斯视角

    P(\omega \vert Y) = frac{P(y \vert \omega) p(\omega)}{p(y)}
    其中分子两项已经在上文求出
    因此根据最大后验概率估计(MAP)
    \hat{\omega} = argmax_{\omega} P(\omega \vert Y) \\\\ = argmax_{\omega}P(y \vert \omega) P(\omega)
    带入化简,得
    \hat{\omega}_{map} = argmin\sum_{i = 1}^N(y_i -\omega^Tx_i)^2 + \frac{\sigma^2}{\sigma_0^2}\parallel \omega \parallel^2
    与L2正则化后的J(\omega)一致,因此得证

    4.3 结论

    L2正则化后的LSE \Leftrightarrow MAP (noise is GD, prior is GD)

    相关文章

      网友评论

        本文标题:线性回归学习笔记

        本文链接:https://www.haomeiwen.com/subject/vvwusqtx.html