深度学习trick | 正则化

作者: yuanCruise | 来源:发表于2018-12-29 13:57 被阅读17次

深度学习trick | 正则化
5- 深度学习之神经网络核心原理与算法-正则化
资深程序员带你玩转深度学习中的正则化技术（附Python代码）！
【DL碎片5】深度学习中的正则化（Regularization）
正则化总结
吴恩达深度学习笔记(30)-正则化的解释
花书深度学习中的正则化(阅读笔记)
【Keras】减少过拟合的秘诀——Dropout正则化
【连载】深度学习笔记4：深度神经网络的正则化
深度学习中的网络正则化

1.讲讲正则化

正则化策略主要是通过在损失函数的最后增加一个正则项，防止参数过多而使得网络拟合能力过强，使得发生过拟合现象。所谓过拟合现象，即模型过于复杂（参数量多等）导致模型拟合能力过强，对数据中的各类噪声也进行了拟合，最终导致训练过程中误差极小（因为连噪声都拟合成功了），而测试过程误差极大（因为拟合的模型并不适用于当前场景，被误差干扰了）。而正则化策略就是抑制训练过程中权值过大。利用正则化惩罚目标函数。

上式中阿尔法值越大表示惩罚力度也越大。本文主要介绍下L1正则化和L2正则化各自的特点。

2.L2正则化：

L2正则化又被称为权重衰减，为什么L2正则被称为权重衰减呢。主要原因如下：

问：为什么权重w减小了，就可以方式过拟合了呢？
答：过拟合现象产生时，拟合函数会顾忌到每个点（包括噪声），最终形成的拟合函数的波动性会比较强，特别是在某些噪声丰富的小区间内，函数值波动剧烈，则导数的绝对值会比较大。而参数大和导数绝对值大是相关的，所以减小w参数值可以有效抑制过拟合。

3.L1正则化：

L1正则化中sgn(w)可正可负，当w大于0的时候其为正，当w小于0的时候其为负。由于学习的目标是最小化损失函数，所以当w大于0的时候，由于为正，使得w越小越好（接近于0）。当w小于0的时候，由于为负，使得w越大越好（接近于0）。综上所述，最终产生的效果就是w尽可能的往0靠近，使得网络变得更加稀疏，从而防止过拟合现象。