![](https://img.haomeiwen.com/i1064595/954c9f7deaed8c5b.png)
输入:
本层的输入层如上图1号位置,输入的图片的像素是224x224的且有三层,这三层代表三原色RGB(我们知道所谓的彩色其实就是三原色组合而成的,因此彩色图片也是这样),我们可以简单的看做有三张图片堆叠而成的彩色图片,这三张图片分别对应红色,绿色,蓝色,在LeNet -5-网络只有一层,因为颜色是灰度的。
输入层的采样窗口(核函数)为11×11且也有三层对应图片的三层,那么每采样一次有多少个连接呢?
有11x11x3 = 363个,采样窗口的平移步长是4,(在LeNet -5-网络移动步长是1,这里是4,应该很容易理解)为什么步长是4而不是1呢?因为考虑到计算量的问题,如果是1步计算量太大。
MAX pooling层(2号位置):
这一层就是上图的2号位置,那么这里的维度是多少呢?通过11×11的采样和卷积的窗口对224x224的图片进行采样得到55x55的层级地图,那厚度是48的什么意思呢?其实就是对应LeNet -5-网络不同的卷积特征平面,如C1有6个特征平面。因此这里的有48 + 48 = 96个55x55的特征平面,为什么是48 + 48,因为这里计算是通过GPU并行计算的,因此采用两路,合并起来就是LeNet -5-网络的那种形式,这里大家需要结合LeNet -5-网络进行理解。
3号位置:
3号位置的层和2号类似,这里的对2号设置的采样窗口为5×5,得到的3号维度为27x27,总有256个卷积核,在此基础上同理得到4号位置的层,此时的维度为13×13,总共384个卷积核,同理5号,6号也是如此,这里不细讲了。
第6层和第7层是BP形式的全连接,总共有4096个神经元,第7层和第8层也是BP形式的全连接,总共有4096个神经元,最后就是输出1000个输出。
![](https://img.haomeiwen.com/i1064595/dbb0defc7002a568.png)
AlexNet将sigmoid激活函数改成了更加简单的ReLU激活函数。一方面,ReLU激活函数的计算更简单,例如它并没有sigmoid激活函数中的求幂运算。另一方面,ReLU激活函数在不同的参数初始化方法下使模型更容易训练。这是由于当sigmoid激活函数输出极接近0或1时,这些区域的梯度几乎为0,从而造成反向传播无法继续更新部分模型参数;而ReLU激活函数在正区间的梯度恒为1。因此,若模型参数初始化不当,sigmoid函数可能在正区间得到几乎为0的梯度,从而令模型无法得到有效训练。
AlexNet通过丢弃法来控制全连接层的模型复杂度。而LeNet并没有使用丢弃法。
AlexNet引入了大量的图像增广,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合。
网友评论