lasso是很基本的sparse的model,虽然曾经看过很多的sparse文章,但仔细想想自己竟然一直没有去注意为什么lasso可以sparse,可以做参数选择,后来在PRML中找到了一张示意图
简单解释一下图的意思,蓝色的是cost function, 越外圈越大,黄色的是p-norm,分别是2-norm和1-norm的regularizer的情况,同样也是越外圈越大。优化问题的解在这个平面上,它一定是在cost function的某个圈上,也一定在p-norm的某个圈上(分别代表了w等于最优解的时候,cost function和p-norm项的大小)。但是对于1-norm,只要cost function的圈与坐标轴相交,这个最优解就一定在坐标轴上,而在坐标轴上就意味着有些参数等于0.相反,2-norm就不能做到这一段,在cost-function与坐标轴相交的时候,最优解是不在坐标轴上面的,也就是说此时最优解的所有参数都不为0。
这也就可以解释,为什么说lasso可以使得有些参数等于0,而2-norm只能使得大家尽量趋近于0.这其实是由它们的区域范围形状所决定的。
网友评论