相同点:都用于避免过拟合
不同点:L1可以让一部分特征的系数缩小到0,从而间接实现特征选择。所以L1适用于特征之间有关联的情况。
L2让所有特征的系数都缩小,但是不会减为0,它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况
image.png
image.png
image.png
这两种类型的正则化都使权重向零靠近,使其分布在零附近。L2 正则化对分布尾端的影响比较大,可消除极端权重。L1 正则化生成更多确切的零值,在本示例中,它将 ~200 设置为零值。
网友评论