美文网首页
[ISL C6] Linear Model Selection

[ISL C6] Linear Model Selection

作者: 数科每日 | 来源:发表于2021-02-16 15:24 被阅读0次

    6.1 Subset Selection

    a 为什么不用最小二乘法 (Least Square)

    • Prediction Accuracy: 样本多了还好, 样本接近p 的时候variance 就多了, 样本少于p 则不能用
    • Model Interpretability: 不能使无关变量归零, 模型解释起来麻烦。

    b 几种解决方案

    • Subset Selection : featrue 选择, 不用的不要
    • Shrinkage : 用技术手段使得无关变量归零
    • Dimension Reduction : 技术手段降维PCA

    6.1.1 Best Subset Selection

    一个一个试, 找到最好的

    image.png

    缺点: 计算量太大, p 超过40个就不灵了

    6.1.2 Stepwise Selection

    Forward Stepwise Selection

    image.png

    优点: 计算量大大降低
    缺点:

    • 可能漏掉最优解:因为变量是一个一个加进去的, 最先加进去的变量一定会留下来,如果最优解不包含排在前面的变量, 就不会找到最优解了。
    • 也用最小二乘法, p>n 就不灵了。

    Backward Stepwise Selection

    image.png

    类似 Forward Stepwise Selection

    Hybrid Approaches

    没仔细讲, 可能依赖于实现。

    6.1.3 Choosing the Optimal Model

    如何选择模型, 选择模型的时候没有 test data, 所以要依据 training data来做决定。 首先来说, RSS, R^2 都不好使。 有2种思路

    • 针对 overfit , 对已有的 metrics 做调整
    • 用 validation data 或者做 ross-validation。

    C_{p}, AIC, BIC, and Adjusted R^2

    都是对现有metric 的修修补补

    • C_{p} = \frac{1}{n}(RSS + 2d\hat\sigma^2)
    • AIC = \frac{1}{n\hat\sigma^2}(RSS + 2d\hat\sigma^2)
    • BIC = \frac{1}{n\hat\sigma^2}(RSS + log(n)d\hat\sigma^2)
    • Adjusted R^2= 1 - \frac{RSS/(n − d − 1)}{TSS/(n − 1)}

    Validation and Cross-Validation

    Cross-Validation 的一个问题是, 重新分组以后, 最优模型可能会每次都不一样。

    one-standard-error rule
    解决 Cross-Validation 最优模型偏移的问题的一个准则:

    测试 n 个模型, 找出最小的 error ,以及 error 的方差。 在距离最小 error 一个标准差内, 选择最简单(变量最少)的模型。

    6.2 Shrinkage Methods

    6.2.1 Ridge Regression (L2)

    RSS + \lambda\sum_{j=1}^{p}\beta_{j}^{2}

    standardizing the predictors
    如果要用 Ridge , 一定要在预处理的时候, 对数据进行 standardizing , 否则后面的 regular 项就会因为某个变量取值太大, 把其他数值压成 0 。 (最小二乘法估计回归 cofficient 的时候,不会出现这种情况, 这个属性叫做 scale equivarant)

    \tilde{x}_{i j}=\frac{x_{i j}}{\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i j}-\bar{x}_{j}\right)^{2}}}

    Ridge 的 \lambda 其实就是一种Bias-Variance 的Trade off

    image.png
    绿线是 Variance, 红线是 Test MSE, 黑线是Bias

    Ridge 当 variance 时, 比较好用

    6.2.2 The Lasso (L1)

    RSS + \lambda\sum_{j=1}^{p}|\beta_{j}|

    image.png
    • Ridge (L2) 把 coefficient 压缩的很小, 但是不会让他们变成0
    • Lasso (L1) 会把coefficient 0, 起到了 featrue selection 作用

    如何选择

    • Ridge 适用于feture 多, 但是每个 feture 不会绝对为0的场景
    • Lasso 适用于 feture 少, 有些feature 一点用都没有的场景
    • 在不知道该用哪个的时候, 可以用 cross-validation 来选择

    相关文章

      网友评论

          本文标题:[ISL C6] Linear Model Selection

          本文链接:https://www.haomeiwen.com/subject/ursvxltx.html