本文介绍LAR(Least angle regression,最小角回归),由Efron等(2004)提出。这是一种非常有效的求解LASSO的算法,可以得到LASSO的解的路径。
1 算法介绍
我们直接看最基本的LAR算法,假设有个样本,自变量是
维的:
- 先对
(
)做标准化处理,使得每个predictor(
的每列)满足
,
。我们先假设回归模型中只有截距项,则
,记残差
,而其他的系数
;
- 找出与
相关性最大的
,加入active set;
- 将
从
逐步向LS系数
变动,直到有另一个
,它与
的相关系数绝对值,和
与
的相关系数绝对值一样大;
- 将
和
同时向二者的联合LS系数变动,直到再出现下一个
,它与
的相关系数满足上一步的条件;
- 重复上述过程,
步后,就得到完整的LS解。
2 算法性质
2.1 保持最小角
我们先来看LS估计量的一个性质:若每个predictor与的相关系的数绝对值相等,从此时开始,将所有系数的估计值同步地从
移向LS估计量,在这个过程中,每个predictor与残差向量的相关系数会同比例地减少。
假设我们标准化了每个predictor和,使他们均值为
,标准差为
。在这里的设定中,对于任意
,都有
,其中
为常数。LS估计量
,当我们将系数从
向
移动了
(
)比例时,记拟合值为
。
另外,记为只有第
个元素为
、其他元素均为
的
维向量,则
,再记
,记投影矩阵
。
这里的问题是,在变大过程中,每一个
与新的残差的相关系数,是否始终保持相等?且是否会减小?
由于,即内积与
无关。再由
可知
。
相关系数的绝对值
因此,任意predictor与当前残差的相关系数绝对值,会随着的增加,同比例地减小,并且
,
。
现在,我们再回顾一下LAR的过程。在第步开始时,将所有active set中的predictor的集合记为
,此时在上一步估计完成的系数为
,它是
维且每个维度都非零的向量,记此时残差为
,用
对
做回归后系数为
,拟合值
。另外,我们知道
,而一个predictor加入
的条件就是它与当前
的相关系数的绝对值等于
中的predictor与当前
的相关系数的绝对值,所以
向量的每个维度的绝对值都相等,也即
的每个维度的绝对值都相等,
就是与各个
中的predictor的角度都相等的向量,且与它们的角度是最小的,而
也是下一步系数要更新的方向,这也是“最小角回归”名称的由来。
2.2 参数更新
那么,在这个过程中,是否需要每次都逐步小幅增加,再检查有没有其他predictor与残差的相关系数绝对值?有没有快速的计算
的方法?答案是有的。
在第步的开始,
中有
个元素,我们记
,其中
,并记
,此时的active set其实就是
。在这里,我们将
做个修改,记
,再令
。
此时更新方向为,
,并取
。更新的规则为
。因此,任一predictor,与当前残差的内积就为
,而对于
,有
。
对于,如果要使
与当前残差的相关系数绝对值,与在
中的predictor与当前残差的相关系数绝对值相等,也即它们的内积的绝对值相等,必须要满足
。问题转化为了求解使它们相等的
,并对于所有的
,最小的
即为最后的更新步长。
由于,因此只需考虑
与
的大小关系即可。最后解为
注意到
因此,当时,除非
即
,否则必有
。反之,当
时,除非
即
,否则必有
。综上所述,上面的解可以写为
其中表示只对其中正的元素有效,而丢弃负的元素。
3 LAR与LASSO
LAR虽然是求解LASSO的算法,但它得到的解的路径,在出现了某个系数要穿过的情况时,有可能与LASSO不一样。因此,想要完全得到LASSO的解的路径,还需要做修正。
我们在第1节算法的第4步中加入一个规则:
- 若一个非零系数又变为了
,将该predictor从active set中剔除,重新计算当前的LS解作为更新方向。
在修正后,LAR就可以解任意LASSO问题,包括的问题。
为什么会出现与LASSO解不同的情况?我们注意到,对于LASSO的active set 中的predictor,它的系数需要满足
而对于LAR的active set 中的predictor,它的系数需要满足
其中为左边内积的符号。
在正常情况下,上面二者的右侧是相等的,也因此LAR的解就是LASSO的解。但是,当一个非零系数要穿过时,它不再满足LASSO的解条件,因此会被踢出
,而LAR的解条件却可能没有突变(因为
是由内积的符号而非系数的符号决定的)。在系数到达
时,它满足
这恰恰与中的predictor的条件一致,因此可以将它也踢出
,这样就让LAR与LASSO相一致了。
参考文献
- Efron, Bradley, Trevor Hastie, Iain Johnstone, and Robert Tibshirani. "Least angle regression." Annals of statistics 32, no. 2 (2004): 407-499.
- Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.
网友评论