美文网首页
线性回归

线性回归

作者: 苏格兰低地弟弟打滴滴 | 来源:发表于2019-12-07 02:17 被阅读0次

    线性模型:对于每个i有:y_{i}=w^{\top} x_{i}+\varepsilon_{i}

    排成一个矩阵的形式:

    Y=X w+\varepsilon

    其中 X  是\quad n \times d

    直接解就得到:w^{*}=\left(X^{T} X\right)^{-1} X^{T} y

    =====

    这里有几个问题:1,X^{T} X不可逆的话就只能取广义逆

                                 2,如果X^{T} X不可逆,那么求出来的w还是无偏估计,但是会有大的方差(这样的话有时候估计出来的w就会很大。)

                                 3,X有共线性的时候,也是不可逆

    =====

    解决方案:考虑加入显示正则项:

    \min _{\theta} \frac{1}{N} \sum_{i=1}^{N} l\left(f\left(x_{i} ; \theta\right), y_{i}\right)+R(\theta)

    R的选择是两方面决定的:1,本身参数应该有的统计特征。

                                               2,应当减少参数的复杂度。

    =====

    岭回归:可以有闭合解小方差估计,但是有偏差

    =====

    LASSO:可以有稀疏解,但是不闭合。是一个很好的变量选择的方法。一般在d远大于n的时候很好用。这时候最多选择出n个非零的元。

    用ISTA解决LASSO:通常我们的梯度下降公式\boldsymbol{w}^{(t+1)}=\boldsymbol{w}^{(t)}-\eta \nabla f\left(\boldsymbol{w}^{(t)}\right)可以用下面的方法得到:

    \boldsymbol{w}^{(t+1)}=\underset{\boldsymbol{w}}{\operatorname{argmin}} f\left(\boldsymbol{w}^{(t)}\right)+\nabla f\left(\boldsymbol{w}^{(t)}\right)^{\mathrm{T}}\left(\boldsymbol{w}-\boldsymbol{w}^{(t)}\right)+\frac{1}{2 \eta}\left\|\boldsymbol{w}-\boldsymbol{w}^{(t)}\right\|_{2}^{2}

    如果我们把上面的式子写的更加一般:

    \begin{aligned} \boldsymbol{w}^{(t+1)} &=\underset{\boldsymbol{w}}{\operatorname{argmin}} f\left(\boldsymbol{w}^{(t)}\right)+\nabla f(\boldsymbol{w})^{\mathrm{T}}\left(\boldsymbol{w}-\boldsymbol{w}^{(t)}\right)+\frac{1}{2 \eta}\left\|\boldsymbol{w}-\boldsymbol{w}^{(t)}\right\|_{2}^{2}+g(\boldsymbol{w}) \\ &=\underset{\boldsymbol{w}}{\operatorname{argmin}} g(\boldsymbol{w})+\frac{1}{2 \eta}\left\|\boldsymbol{w}-\left(\boldsymbol{w}^{(t)}-\eta \nabla f\left(\boldsymbol{w}^{(t)}\right)\right)\right\|_{2}^{2} \end{aligned}

    那么就相当于是把原来的要优化的f+g函数,的f在xt二次展开了,二次用一个东西近似

    在LASSO中我们让f(\boldsymbol{w})=\frac{1}{2}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{w}\|_{2}^{2} \quad g(\boldsymbol{w})=\lambda\|\boldsymbol{w}\|_{1}

    =====

    为什么LASSO更容易得到稀疏解:

    看这张图。norm边界和等高线的交点应该是最优解,在二维中尚看不清楚,但是在多维中,l1的边界,是很多角的,所以等高线会先碰到角上。这也就是为什么会有稀疏解。

    =====

    正则化路迹(lambda逐渐增大,估算的参数结果)可以检查共线性程度(岭回归),如果很接近0且稳定,或者震荡着趋于0,这样的特征可以去掉。

    LASSO和岭回归的分别:

    左边是LASSO,可以看到虽然两张图。随着lambda变大,这些回归系数都趋近0.但是趋近于0的速度不同(LASSO),所以LASSO可以用来变量选择。

    =====

    两个变种:

    弹性LASSOJ(\boldsymbol{w})=\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{w}\|_{2}^{2}+\lambda_{1}\|\boldsymbol{w}\|_{1}+\lambda_{2}\|\boldsymbol{w}\|_{2}^{2}

    LASSO的缺点就是,有时候两个特征都很重要,但是因为相关性强烈,就被LASSO剔除了其中一个。而我们希望都能保留:

    Group LASSO

    有时候变量是一组一组的,一组一组地保留或者丢弃。

    相关文章

      网友评论

          本文标题:线性回归

          本文链接:https://www.haomeiwen.com/subject/wkmygctx.html