美文网首页
12.L1范数,L2范数

12.L1范数,L2范数

作者: 袁一帆 | 来源:发表于2016-03-04 10:08 被阅读689次

    存在意义

    监督学习的2个主题就是
    1. 最小化误差:模型拟合数据
    2. 规则化参数:防止过拟合

    为了使模型简单,所以需要规则化
    在保持模型单的情况下,使误差最小,可以得到泛化能力强的模型

    规则化符合奥卡姆剃刀(Occam's razor)原理。即在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。

    规则化是结构风险最小化策略的体现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

    L0与L1

    L0范数是指向量中非0的元素的个数。是使权值W稀疏化。
    L1范数是指向量中各个元素绝对值之和

    L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。

    稀疏有什么卵用?
    1. 特征选择:实现特征的自动选择。去除和最终的输出yi没有关系或者不提供任何信息的特征
    2. 可解释性:留下的非0参数少,更易理解

    L2范式

    L2范式:向量各元素的平方和然后求平方根。
    L2范式可以改善过拟合问题
    L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0

    过拟合与欠拟合

    L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。下图左边是优化过后的效果,这样可以更快逼近最优值,而右边因为切点处很平缓,因此逼近最优解的速度缓慢。

    左边是加了L2的效果,更易逼近最优解

    L1使得大部分特征置0,但是L2并不会将特征都置0,只是尽量将参数“惩罚”为接近0的一个小值,这个惩罚力度由因子λ控制,λ越大,最终训练得到的w就越小(越接近0)。

    相关文章

      网友评论

          本文标题:12.L1范数,L2范数

          本文链接:https://www.haomeiwen.com/subject/gfdokttx.html