美文网首页
人工智能00035 深度学习与图像识别书评35 神经网络基础17

人工智能00035 深度学习与图像识别书评35 神经网络基础17

作者: 水晓朴 | 来源:发表于2024-01-14 08:31 被阅读0次

正则化惩罚

本节我们主要讲解神经网络的一种重要的优化方式——正则化惩罚。

我们希望能向某些特定的权重W添加一些偏好,对其他权重则不添加,以此来消除模糊性。这一点是能够实现的,方法是向损失函数增加一个正则化惩罚(regularization penalty)。

最常用的正则化惩罚是L2范式,L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重:

举个例子,假设输入向量x=[1,1,1,1],两个权重向量,w1=[1,0,0,0],w2=[0.25,0.25,0.25,0.25],那么w1xT=w2xT=1,两个权重向量都得到了同样的内积,但是从主观判断来说,w2会好一点,因为w1只关心第一个像素,其他像素不管是什么值,最后相乘之后都是0。

计算公式,可以得到惩罚项,w1的L2惩罚是1.0,而w2的L2惩罚是0.25。因此,根据L2惩罚来看,w2更好一些,因为它的正则化损失更小。

从直观上来看,这是因为的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量,那么这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度。

需要注意的是,与权重不同,偏差没有这样的效果,因为它们并不控制输入维度上的影响强度。因此通常只对权重正则化,而不正则化偏差(bias)。

在实际操作中,可以发现这一操作的影响基本上可忽略不计;另外我们还需要定义一个超参数(lambda),其与学习率差不多,需要我们自己调整。

超参数定义如下:  来理解下: 假设有一个三层网络,输入层是N(样本数)行、D(维度)列;比如3行数据,每一行是28*28=784个维度,所以输入层的矩阵是:(3,784)。

假设最后输出层的类别为10类,分别代表0~9个数字。那么中间层的权重的矩阵尺寸就应该是(784,10)。

对于W矩阵的平方的意思是针对权重矩阵里的每一项相乘(实现了平方)然后全部相加,这个时候就不能使用点乘而是直接使用矩阵相乘然后全部相加。

惩罚系数λ=0.001伸出的爪子本质就是过拟合了(由于惩罚的程度不够),λ=0.1泛化能力强。

本章介绍了将计算过程可视化的计算图,介绍了神经网络中的误差反向传播法,并以层为单位实现了神经网络的搭建。

在ReLU层、Sigmoid层、Affine层以及Softmaxwithloss层都实现了前向以及反向传播,以高效地进行权重和偏置量的梯度计算。

在各个层中我们都进行了模块化的封装,因此在搭建自己的神经网络的时候可以自由组合,任意添加层数。

相关文章

网友评论

      本文标题:人工智能00035 深度学习与图像识别书评35 神经网络基础17

      本文链接:https://www.haomeiwen.com/subject/ztwqodtx.html