正则化
对学习算法进行修改,旨在减少泛化误差,防止过拟合。
1.1 正则化方法
参数范数惩罚(Parameter Norm Penalties)
基本思想:在代价函数中加入正则项,常用的有L1正则项和L2正则项。
L2和L2正则化的区别:
彩色线就是优化过程中遇到的等高线,一圈代表一个目标函数值,圆心就是样本观测值(假设一个样本),半径就是误差值,受限条件就是黑色边界(就是正则化那部分),二者相交处,才是最优参数。左图中这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L1函数有很多『突出的角』(二维情况下四个,多维情况下更多),没有加正则项的损失函数与这些角接触的机率会远大于与L1其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是L1可以产生稀疏模型的原因,进而可以用于特征选择。右图中二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此没有加正则项的损失函数与L相交时使得w1或w2等于零的机率小了许多,这就是L2正则化不具有稀疏性的原因。
数据集增强(Dataset Augmentation)
在不同领域对应不同的方法:在对象识别领域常用的方法是将图片进行旋转、缩放等变换,图片变换的前提是通过变换不能改变图片所属类别,例如手写数字识别,类别6和9进行旋转后改变正确类别。在语音识别领域中对输入数据添加随机噪声。噪声注入可以对输入添加噪声,也可以对隐藏层或者输出层添加噪声。
提前终止(Early Stopping)
返回使验证集误差最低的参数设置可以获得更好的模型。在每次验证集误差有所改善后,存储模型参数的副本。当验证集误差在事先指定的循环内没有进一步改善时,算法终止。很多控制模型容量的超参数在验证集上都是U型性能曲线,在提前终止的情况下,我们通过拟合训练集的步数来控制模型的有效容量。
Dropout
Dropout训练的集成包括所有从基本的基础网络中去除非单元形成的子网络,我们可以将一些单元的输出乘零就可以有效的删除一个单元。训练层面:训练网络的每个单元都要增加一道概率流程。Dropout有助于防止过拟合,这是由于运用了dropout的训练过程,相当于训练了很多个只有半数隐层单元的神经网络,每一个这样的半数网络都可以给出一个分类结果,这些分类结果有些正确,有些错误。随着训练的进行,大部分半数网络都可以给出正确的分类结果,那么少数的错误分类结果就不会对最终结果造成大的影响。
1.2 正则化方法比较
参数范数惩罚:需要大量的训练确定超参数
数据集增强:获得大量训练样本的代价太大
提前终止:extra training结果有可能存在无法达到early stopping训练结果的情况
Dropout:在小型网络中,训练速度较慢
网友评论