6.1 Subset Selection
a 为什么不用最小二乘法 (Least Square)
- Prediction Accuracy: 样本多了还好, 样本接近p 的时候variance 就多了, 样本少于p 则不能用
- Model Interpretability: 不能使无关变量归零, 模型解释起来麻烦。
b 几种解决方案
- Subset Selection : featrue 选择, 不用的不要
- Shrinkage : 用技术手段使得无关变量归零
- Dimension Reduction : 技术手段降维PCA
6.1.1 Best Subset Selection
一个一个试, 找到最好的
image.png缺点: 计算量太大, p 超过40个就不灵了
6.1.2 Stepwise Selection
Forward Stepwise Selection
image.png优点: 计算量大大降低
缺点:
- 可能漏掉最优解:因为变量是一个一个加进去的, 最先加进去的变量一定会留下来,如果最优解不包含排在前面的变量, 就不会找到最优解了。
- 也用最小二乘法, p>n 就不灵了。
Backward Stepwise Selection
image.png类似 Forward Stepwise Selection
Hybrid Approaches
没仔细讲, 可能依赖于实现。
6.1.3 Choosing the Optimal Model
如何选择模型, 选择模型的时候没有 test data, 所以要依据 training data来做决定。 首先来说, 都不好使。 有2种思路
- 针对 overfit , 对已有的 metrics 做调整
- 用 validation data 或者做 ross-validation。
都是对现有metric 的修修补补
Validation and Cross-Validation
Cross-Validation 的一个问题是, 重新分组以后, 最优模型可能会每次都不一样。
one-standard-error rule
解决 Cross-Validation 最优模型偏移的问题的一个准则:
测试 n 个模型, 找出最小的 error ,以及 error 的方差。 在距离最小 error 一个标准差内, 选择最简单(变量最少)的模型。
6.2 Shrinkage Methods
6.2.1 Ridge Regression (L2)
standardizing the predictors
如果要用 Ridge , 一定要在预处理的时候, 对数据进行 standardizing , 否则后面的 regular 项就会因为某个变量取值太大, 把其他数值压成 0 。 (最小二乘法估计回归 cofficient 的时候,不会出现这种情况, 这个属性叫做 scale equivarant)
Ridge 的 其实就是一种Bias-Variance 的Trade off
image.png绿线是 Variance, 红线是 Test MSE, 黑线是Bias
Ridge 当 variance 时, 比较好用
6.2.2 The Lasso (L1)
image.png- Ridge (L2) 把 coefficient 压缩的很小, 但是不会让他们变成0
- Lasso (L1) 会把coefficient 0, 起到了 featrue selection 作用
如何选择
- Ridge 适用于feture 多, 但是每个 feture 不会绝对为0的场景
- Lasso 适用于 feture 少, 有些feature 一点用都没有的场景
- 在不知道该用哪个的时候, 可以用 cross-validation 来选择
网友评论