1.讲讲正则化
正则化策略主要是通过在损失函数的最后增加一个正则项,防止参数过多而使得网络拟合能力过强,使得发生过拟合现象。所谓过拟合现象,即模型过于复杂(参数量多等)导致模型拟合能力过强,对数据中的各类噪声也进行了拟合,最终导致训练过程中误差极小(因为连噪声都拟合成功了),而测试过程误差极大(因为拟合的模型并不适用于当前场景,被误差干扰了)。而正则化策略就是抑制训练过程中权值过大。利用正则化惩罚目标函数。
上式中阿尔法值越大表示惩罚力度也越大。本文主要介绍下L1正则化和L2正则化各自的特点。
2.L2正则化:
L2正则化又被称为权重衰减,为什么L2正则被称为权重衰减呢。主要原因如下:
问:为什么权重w减小了,就可以方式过拟合了呢?
答:过拟合现象产生时,拟合函数会顾忌到每个点(包括噪声),最终形成的拟合函数的波动性会比较强,特别是在某些噪声丰富的小区间内,函数值波动剧烈,则导数的绝对值会比较大。而参数大和导数绝对值大是相关的,所以减小w参数值可以有效抑制过拟合。
3.L1正则化:
L1正则化中sgn(w)可正可负,当w大于0的时候其为正,当w小于0的时候其为负。由于学习的目标是最小化损失函数,所以当w大于0的时候,由于为正,使得w越小越好(接近于0)。当w小于0的时候,由于为负,使得w越大越好(接近于0)。综上所述,最终产生的效果就是w尽可能的往0靠近,使得网络变得更加稀疏,从而防止过拟合现象。
网友评论