出自:https://zhuanlan.zhihu.com/p/29297934
过拟合的对策:L2正则化
对抗过拟合最有效的方法就是增加训练数据的完备性,但它昂贵且有限。另一种思路是减小网络的规模,但它可能会因为限制了模型的表达潜力而导致识别精度整体下降。
本篇引入L2正则化(Regularization),可以在原有的训练数据,以及网络架构不缩减的情况下,有效避免过拟合。L2正则化即在损失函数C的表达式上追加L2正则化项:
L2正则化
上式中的C0代表原损失函数,可以替换成均方误差、交叉熵等任何一种损失函数表达式。
关于L2正则化项的几点说明:
求和∑是对网络中的所有权重进行的;
λ(lambda)为自定义参数(超参数);
n是训练样本的数量(注意不是所有权重的数量!);
L2正则化并没有偏置参与;
L2正则化表达式暗示着一种倾向:训练尽可能的小的权重,较大的权重需要保证能显著降低原有损失C0才能保留。实际上L2正则化对于缓解过拟合的数学解释并不充分,更多是依据经验的。
L2正则化的实现
因为在原有损失函数中追加了L2正则化项,那么是不是得修改现有反向传播算法(BP1中有用到C的表达式)?答案是不需要。
C对w求偏导数,可以拆分成原有C0对w求偏导,以及L2正则项对w求偏导。前者继续利用原有的反向传播计算方法,而后者可以直接计算得到:
C对于偏置b求偏导保持不变:
基于上述,就可以得到权重w和偏置b的更新方法:
网友评论