https://en.wikipedia.org/wiki/Lasso_(statistics)
几何解释
lasso可以把回归系数设为零
ridge表面上看起来和lasso很相似,但是它不能将系数设为零
二者的不同是因为限制条件的边界不同
lasso和ridge都可以看做是最小化下面的函数
不同之处在于限制条件:
lasso的是,ridge的是
L1范数是方正的,它的角是落在坐标轴上的,形状是高维超正体(cross polytope)
L2范数是圆润的,n-sphere,它没有corner
它的最值发生在切点或是角点上
贝叶斯学派解释
ridge 回归可以解释为线性回归,其系数先验地服从正态分布。(normal prior distributions)
lasso也可以被解释为,其系数服从拉普拉斯先验分布。( Laplace prior distributions)
拉普拉斯先验分布在0处十分尖峰,比正态分布更聚焦于零附近,这也解释了为什么lasso更倾向于将一些系数设定为零。
凸松弛解释
lasso也可以看作是回归凸松弛最佳子集选取问题,找到最多k个系数,使得目标函数最小化,k<=n,n是总系数个数。
网友评论