正则化

对学习算法进行修改，旨在减少泛化误差，防止过拟合。

1.1 正则化方法

参数范数惩罚(Parameter Norm Penalties)

基本思想：在代价函数中加入正则项，常用的有L1正则项和L2正则项。

L2和L2正则化的区别：

彩色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是黑色边界（就是正则化那部分），二者相交处，才是最优参数。左图中这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L1函数有很多『突出的角』（二维情况下四个，多维情况下更多），没有加正则项的损失函数与这些角接触的机率会远大于与L1其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是L1可以产生稀疏模型的原因，进而可以用于特征选择。右图中二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此没有加正则项的损失函数与L相交时使得w1或w2等于零的机率小了许多，这就是L2正则化不具有稀疏性的原因。

数据集增强（Dataset Augmentation)

在不同领域对应不同的方法：在对象识别领域常用的方法是将图片进行旋转、缩放等变换，图片变换的前提是通过变换不能改变图片所属类别，例如手写数字识别，类别6和9进行旋转后改变正确类别。在语音识别领域中对输入数据添加随机噪声。噪声注入可以对输入添加噪声，也可以对隐藏层或者输出层添加噪声。

提前终止（Early Stopping）

返回使验证集误差最低的参数设置可以获得更好的模型。在每次验证集误差有所改善后，存储模型参数的副本。当验证集误差在事先指定的循环内没有进一步改善时，算法终止。很多控制模型容量的超参数在验证集上都是U型性能曲线，在提前终止的情况下，我们通过拟合训练集的步数来控制模型的有效容量。

Dropout

Dropout训练的集成包括所有从基本的基础网络中去除非单元形成的子网络，我们可以将一些单元的输出乘零就可以有效的删除一个单元。训练层面：训练网络的每个单元都要增加一道概率流程。Dropout有助于防止过拟合，这是由于运用了dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络，每一个这样的半数网络都可以给出一个分类结果，这些分类结果有些正确，有些错误。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。