美文网首页
7 深度学习中的正则化

7 深度学习中的正则化

作者: golfgang | 来源:发表于2018-09-13 23:55 被阅读0次

    1 参数泛数惩罚

    1.1. L^2参数正则化
    通常被称为权重衰减的 L^2参数泛数惩罚。这个正则化策略通过向目标函数添加一个正则项Ω(θ)=\frac{1}{2}||w||_2^2,使权重更接近原点。
    只有在显著减小目标函数方向上的参数会保留的相对完好。对于无助于目标函数见效的方向(对应Hessian矩阵较小的特征值)上改变参数不会显著增加梯度,这种不重要方向上对应的分量会在训练过程中因正则化而衰减掉。
    L^2正则化能让学习算法感知到具有较高方差的输入x,因此与输出目标的协方差较小(也就是相关性不大)的特征的权重将会收缩。
    1.2.L^1参数正则化
    L^1为各个参数的绝对值之和,其定义如下:Ω(θ)=||w||_1=\sum_i|w_i|
    相比L^2正则化,L^1正则化会产生更稀疏的解。此处稀疏性是指的是最优值中的一些参数为0。由L^1正则化导出的稀疏性质已经被广泛地用于特征选择机制。

    2 作为约束的范数惩罚

    在4.4节中,构造广义的拉格朗日函数来最小化带约束的函数,即在原始的目标函数上添加一系列的惩罚项,如果我们想约束Ω(θ)小于k,则拉格朗日函数可以写成:

    lagrange with kkt

    要优化(调整)的参数:θ和α,θ也就是w,α是权重衰减系数,α在Ω(θ)>k时必须增加,在Ω(θ)<k时必须减小。所有正值的α都鼓励Ω(θ)收缩。最优值a^*也鼓励Ω(θ)收缩,但不会强到使得Ω(θ)小于k。

    如果Ω是一个L^2范数,则权重被限制在一个L^2球里面;如果Ω是一个L^1范数,则权重被限制在一个L^1范数限制的区域中。

    显式约束和投影:
    对于每一个不同的α,都寻找与此对应的k,文中的方法时:先计算J(θ)的下降步,然后将θ投影到满足Ω(θ)<k的最近点。
    好处:1.惩罚可能会导致目标函数非凸,从而陷入局部极小值。2.重投影的显示约束使优化过程增加了一定的稳定性。

    Frobenius范数:


    相关文章

      网友评论

          本文标题:7 深度学习中的正则化

          本文链接:https://www.haomeiwen.com/subject/enwggftx.html