abstract
在标准卷积神经网络(CNN)中,每层中人工神经元的感受野被设计成共享相同的大小。在神经科学界众所周知,视觉皮层神经元的感受野大小受到刺激的调节,这在构建CNN时很少被考虑。我们在CNN中提出了一种动态选择机制,允许每个神经元基于多种输入信息尺度自适应地调整其感受野大小。设计了一个名为Selective Kernel(SK)单元的构建块,其中使用由这些分支中的信息引导的softmax注意来融合具有不同内核大小的多个分支。对这些分支的不同关注产生了融合层中神经元的有效感受区域的不同大小。多个SK单元被堆叠到称为选择性内核网络(SKNets)的深度网络中。在ImageNet和CIFAR基准测试中,我们凭经验证明SKNet在模型复杂度较低的情况下优于现有的最先进架构。详细分析表明,SKNet中的神经元可以捕获具有不同尺度的目标物体,这验证了神经元根据输入自适应地调整其感受野大小的能力。
1. Introduction
猫的初级视觉皮层(V1)神经元的局部感受野(RFs)在上个世纪激发了卷积神经网络(CNNs)[26]的构建,并继续激发现代CNN结构的建构。 例如,众所周知,在视觉皮层中,同一区域(例如,V1区域)中神经元的RF大小是不同的,这使得神经元能够在在同一处理阶段提供多尺度空间信息。 该机制已在最近的卷积神经网络(CNN)中被广泛采用。 一个典型的例子是InceptionNets [42,15,43,41],其中一个简单的串联模块被设计用于聚合来自例如“起始”内的3×3,5×5,7×7卷积核的多尺度信息。
然而,在设计CNN时没有强调皮层神经元的一些其他RF特性,并且一个这样的特性是RF尺寸的自适应改变。许多实验证据表明,视觉皮层中神经元的RF大小不是固定的,而是受到刺激的调节。 V1区域中神经元的经典RF(CRF)由Hubel和Wiesel [14]发现,由单向条形确定。后来,许多研究(例如,[30])发现CRF外的刺激也会影响神经元的反应。据说神经元具有非经典RF(nCRF)。此外,nCRF的大小与刺激的对比度有关:对比度越小,有效nCRF大小越大[37]。令人惊讶的是,通过刺激nCRF一段时间,神经元的CRF在去除这些刺激后也会增大[33]。所有这些实验都表明神经元的RF大小不是固定的,而是通过刺激来调节[38]。不幸的是,这个属性在构建深度学习模型时没有受到太多关注。在同一层中具有多尺度信息的那些模型(例如InceptionNets)具有根据输入的内容调整下一个卷积层中的神经元的RF尺寸的固有机制,因为下一个卷积层线性地聚合来自的多尺度信息从不同的分支。但是线性聚合方法可能不足以为神经元提供强大的适应能力。
在本文中,我们提出了一种非线性方法来聚合来自多个核的信息,以实现神经元的自适应RF大小。 我们引入了一个“选择性内核”(SK)卷积,它由三个运算符组成:Split,Fuse和Select。 Split运算符生成具有各种内核大小的多个路径,这些路径对应于神经元的不同RF大小。 Fuse运算符组合并聚合来自多个路径的信息,以获得选择权重的全局和综合表示。 Select运算符根据选择权重聚合不同大小的内核的特征映射。
SK卷积可以是计算上轻量级的,并且仅增加参数和计算成本的轻微增加。 我们展示了在ImageNet 2012数据集[35]上,SKNets优于之前具有相似模型复杂性的最先进模型。 基于SKNet-50,我们找到了SK卷积的最佳设置,并展示了每个组件的贡献。 为了证明它们的一般适用性,我们还在较小的数据集CIFAR-10和100 [22]上提供了引人注目的结果,并成功地将SK嵌入到小模型中(例如,ShuffleNetV2 [27])。
为了验证所提出的模型是否具有调整神经元RF尺寸的能力,我们通过在自然图像中放大目标对象并缩小背景以保持图像大小不变来模拟刺激。 发现当目标对象变得越来越大时,大多数神经元越来越多地从更大的内核路径收集信息。 这些结果表明,所提出的SKNet中的神经元具有自适应RF尺寸,这可能是该模型在物体识别中的优越性能的基础。
- Related Work
Multi-branch convolutional networks. 公路网[39]引入了绕过路径和门控单元。双分支架构简化了培训数百层网络的难度。这个想法也用在ResNet [9,10]中,但旁路路径是纯身份映射。除了身份映射之外,摇晃网络[7]和多余网络[1]以更相同的路径扩展主要变换。深度神经决策森林[21]形成了具有学习分裂函数的树 - 结构多分支原理。 FractalNets [25]和Multilevel ResNets [52]的设计方式使得多个路径可以分形和递归地扩展。 InceptionNets [42,15,43,41]使用自定义内核过滤器仔细配置每个分支,以便聚合更多信息和多种功能。请注意,建议的SKNets遵循InceptionNets的思想,为多个分支提供各种过滤器,但至少有两个重要方面不同:1)SKNets的方案更简单,没有大量的定制设计; 2)这些多重自适应选择机制分支用于实现神经元的自适应RF大小。
Grouped/depthwise/dilated convolutions.
网友评论