历史角度
- 12年AlexNet中用到了一些非常大的卷积核,比如11×11、5×5卷积核,最初认为是,卷积核越大,receptive field(感受野)越大,看到的图片信息越多,因此获得的特征越好。
- 但是大的卷积核会导致计算量的暴增,不利于模型深度的增加,计算性能也会降低。
- 于是在VGG(最早使用)、Inception网络中,利用2个3×3卷积核的组合比1个5×5卷积核的效果更佳,同时参数量(3×3×2+1 VS 5×5×1+1)被降低,因此后来3×3卷积核被广泛应用在各种模型中。
解释
3x3
是最小的能够捕获像素八邻域信息的尺寸。
两个 3x3
的堆叠卷积层的有限感受野是 5x5
;三个 3x3
的堆叠卷积层的感受野是7x7
,故可以通过小尺寸卷积层的堆叠替代大尺寸卷积层,并且感受野大小不变。
多个 3x3
的卷积层比一个大尺寸 filter
卷积层有更多的非线性(更多层的非线性函数),使得判决函数更加具有判决性。(中间层有非线性的分解, 并且起到隐式正则化的作用)
多个 3x3
的卷积层比一个大尺寸的 filter
有更少的参数,假设卷积层的输入和输出的特征图大小相同为 C
,那么三个 3x3
的卷积层参数个数 3x(3x3xCxC)
=27
C2;一个7x7
的卷积层参数为49
C2;
网友评论