人工智能00035 深度学习与图像识别书评35 神经网络基础17

作者: 水晓朴 | 来源:发表于2024-01-14 08:31 被阅读0次

正则化惩罚

本节我们主要讲解神经网络的一种重要的优化方式——正则化惩罚。

我们希望能向某些特定的权重W添加一些偏好，对其他权重则不添加，以此来消除模糊性。这一点是能够实现的，方法是向损失函数增加一个正则化惩罚（regularization penalty）。

最常用的正则化惩罚是L2范式，L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重：

举个例子，假设输入向量x=[1，1，1，1]，两个权重向量，w1=[1，0，0，0]，w2=[0.25，0.25，0.25，0.25]，那么w1xT=w2xT=1，两个权重向量都得到了同样的内积，但是从主观判断来说，w2会好一点，因为w1只关心第一个像素，其他像素不管是什么值，最后相乘之后都是0。

计算公式，可以得到惩罚项，w1的L2惩罚是1.0，而w2的L2惩罚是0.25。因此，根据L2惩罚来看，w2更好一些，因为它的正则化损失更小。

从直观上来看，这是因为的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量，那么这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。

需要注意的是，与权重不同，偏差没有这样的效果，因为它们并不控制输入维度上的影响强度。因此通常只对权重正则化，而不正则化偏差（bias）。

在实际操作中，可以发现这一操作的影响基本上可忽略不计；另外我们还需要定义一个超参数（lambda），其与学习率差不多，需要我们自己调整。

超参数定义如下：来理解下：假设有一个三层网络，输入层是N（样本数）行、D（维度）列；比如3行数据，每一行是28*28=784个维度，所以输入层的矩阵是：（3，784）。

假设最后输出层的类别为10类，分别代表0～9个数字。那么中间层的权重的矩阵尺寸就应该是(784，10)。

对于W矩阵的平方的意思是针对权重矩阵里的每一项相乘（实现了平方）然后全部相加，这个时候就不能使用点乘而是直接使用矩阵相乘然后全部相加。

惩罚系数λ=0.001伸出的爪子本质就是过拟合了（由于惩罚的程度不够），λ=0.1泛化能力强。

本章介绍了将计算过程可视化的计算图，介绍了神经网络中的误差反向传播法，并以层为单位实现了神经网络的搭建。

在ReLU层、Sigmoid层、Affine层以及Softmaxwithloss层都实现了前向以及反向传播，以高效地进行权重和偏置量的梯度计算。

在各个层中我们都进行了模块化的封装，因此在搭建自己的神经网络的时候可以自由组合，任意添加层数。

网友评论

本文标题：人工智能00035 深度学习与图像识别书评35 神经网络基础17

本文链接：https://www.haomeiwen.com/subject/ztwqodtx.html

人工智能00035 深度学习与图像识别书评35 神经网络基础17