12.L1范数，L2范数

作者: 袁一帆 | 来源:发表于2016-03-04 10:08 被阅读689次

存在意义

为了使模型简单，所以需要规则化
在保持模型单的情况下，使误差最小，可以得到泛化能力强的模型

规则化符合奥卡姆剃刀(Occam's razor)原理。即在所有可能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。

规则化是结构风险最小化策略的体现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

L0与L1

L0范数是指向量中非0的元素的个数。是使权值W稀疏化。
L1范数是指向量中各个元素绝对值之和

L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

L2范式：向量各元素的平方和然后求平方根。
L2范式可以改善过拟合问题
L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0

过拟合与欠拟合

L2范数不但可以防止过拟合，还可以让我们的优化求解变得稳定和快速。下图左边是优化过后的效果，这样可以更快逼近最优值，而右边因为切点处很平缓，因此逼近最优解的速度缓慢。

左边是加了L2的效果，更易逼近最优解

L1使得大部分特征置0，但是L2并不会将特征都置0，只是尽量将参数“惩罚”为接近0的一个小值，这个惩罚力度由因子λ控制，λ越大，最终训练得到的w就越小（越接近0）。

本文标题：12.L1范数，L2范数

本文链接：https://www.haomeiwen.com/subject/gfdokttx.html