p=0.5: we can only get large values of one parameter only if other parameter is too small.
p=1: we get sum of absolute values where the increase in one parameter Θ is exactly offset by the decrease in other. p =2, we get a circle and for larger p values, it approaches a round square shape.
最常用的还是L1和L2
黑色实心点是最小二乘法取得最小值的点
正则化项是当所有的参数都设为0的时候最小
我们加了正则化项的损失函数何时最小?
由于它为二次递增的,二者首次相交处即为最小。
L2正则化的曲线是一个圆周,当我们远离它的时候它呈二次增长。
只要最小MSE(均方误差mean square error )的点,也就是图中的黑色点不在坐标轴上,二者的交点落在坐标轴上的概率很小。
但是L1正则化项的形状很尖锐,因此,二者相交的点就很大可能落在坐标轴上。
如果相交的点落在了坐标轴上,这就叫做稀疏。 If the intersection point falls on the axes it is known as sparse.
因此L1提供了某种稀疏性(sparsity),使得我们的模型更能有效存储和计算,并能帮助检验特征的重要性,因为不重要的特征可以直接设置为0.
网友评论