摘要
本文是两支路轻量化分割网络模型,作者分别设计了空间路径(Spatial Path)和上下文路径(Context Path)。空间路径(SP)设计了一个小步长的空间路径来保留空间信息并产生高分辨率的特征,同时,作者设计了一个快速下采样的上下文路径(CP)来获取充分的感受野。在两个路径的顶部,作者设计了一个特征融合模块(FFM)来高效的组合特征。
内容介绍
作者总结在此之前加速模型的三种方法:1.[34,39]尝试限制输入图像的大小来减少计算的复杂度,尽管这种方法简单而且有效,但是这会丢失空间细节信息特别是边界信息,导致准确率的下降;2.采用剪枝通道的方式来提高前向推理速度,特别是在基础模型的早期阶段,但是这会削弱空间信息;3.像是ENet,主张放弃模型的最后阶段,以追求一个非常紧凑的模型框架。但是,这样做的缺点也是显而易见的:ENet放弃了模型最后阶段的下采样操作,导致模型的感受野不饿能够包含大的物体,导致了模型的判别能力差。总结上述的三种方法,都是以牺牲精度来换取速度。
为了弥补空间细节的丢失,很多研究者都采用U形状的结构来将backbone的高阶特征与上采样的特征进行融合,然而这会造成两个劣势:1.由于对于高阶特征图的融合带来的计算量较大,会降低模型的速度;2.由剪枝胡总和剪裁造成的空间信息的丢失很难轻易的经过浅层特征的融合进行恢复。所以说U形状的融合技术只能是一个缓解,而不是一个根本的方法。
对于SP,作者只采用了三层卷积来获取1/8大小的特征图,来保留充足的空间细节.对于CP,作者在Xception(作为backbone)添加了一个全局平均池化层,其感受野是backbone网络的最大值。
网络结构设计
Fig.1 BiseNet网络结构空间路径
由于空间信息和感受野的大小对于高精度的分割来说十分重要,但是要满足这些,对于网络的推理速度带来了损害.作者根据这些,设计出了空间路径,来保留原输入图像的大小,同时编码了充足的空间信息.SP包含了三个卷积层,每个卷积层步长为2,后接bn和Relu.因此SP输出尺寸的大小是输入图像的1/8.因为输出图像的尺寸大,因此SP编码了充足的空间信息。
上下文路径
CP的设计是为了提供充足的感受野,在语义分割中,感受野对于网络的精度有很重要的意义,为了增大感受野,一些方法采用了金字塔池化,扩张空间金字塔池化和"Large kernel"的策略,但是这些方法都需要大量的计算和内存消耗,导致网络推理速度慢.为了保证大的感受野的同时保证高效的计算,作者设计了CP,CP使用的是轻量化的模型和全局平均池化来提供大的感受野.在本文中,轻量化的模型,例如Xception可以快速的下采样来获取较大的感受野,并编码了高阶的语义上下文信息,我们之后在轻量化模型的尾巴上添加了一个全局池化层,以最大的感受野来提供全局上下文信息,最后,作者将全局池化后的特征图进行上采样并将其与轻量化模型的输出进行组合,在轻量化的模型中,作者采用了不完整的U-shape结构来组合最后两个阶段的特征,图如1中的(c)所示.arm的结构攻来精修每个阶段的特征,如图1中的(b)所示,arm采用全局平均池化来捕获全局上下文信息,并计算一个注意力向量来指导特征的学习,这个设计可以精修CP的每个阶段中的输出特征.它无需任何上采样操作即可轻松集成全局上下文信息,因此计算量也可以忽略.
网络结构
BiseNet采用预训练的Xception作为CP的backbone,采用三个卷积层作为SP.最终将两个支路的特征进行融合来产生最终的预测.首先,作者将注意力放到了实际的计算方面,尽管sp有大的空间尺寸,但是它只有三个卷积层,因此计算量不会太大,对于CP,作者使用轻量化的模型来快速的下采样,此外,这两个路径同时进行计算,这极大地提高了效率.第二,作何讨论了网络的精度方面,SP编码了丰富的空间信息,CP提供了大的感受野,它们彼此互补以实现更高的性能。
FFM:在特征的表达方面,两个支路的特征是不同的,因此,不能简单的将两个支路的特征进行相加.SP编码了大多数的丰富的空间信息,CP则主要编码了上下文信息.换句话说,SP的输出特征是底层的空间特征,而CP输出的是高层的语义特征.因此使用FFM来融合特征.给定不同级别的特征,我们首先将空间路径和上下文路径的输出特征进行cancatenate起来。 然后,我们利用批量归一化[15]来平衡特征的尺度。 接下来,我们将级联特征池化为一个特征向量,并计算权重向量,如SENet [13]。 该权重向量可以对特征进行加权,这相当于特征选择和组合。 图1(c)显示了该设计的细节。
实验对比
Fig.2空间路径的作用:SP包括了三个步长为2的卷积,后接BN和Relu激活函数,SPp将准确率从66.01%提升到了67.42%,如图2所示,SP编码了丰富的空间信息细节。
ARM模块的作用:为了更好的提升性能,作何设计了arm模块,它包含了全局平均池化来将输出特征编码为一个向量.之后作者用一个卷积+bn+Relu的单元来计算这个注意力向量.最初的特征会被这个注意力向量重新调整权重.对于最初的特征,可以很轻松在不经过复杂上采样操作的前提下的捕获全局上下文信息.ARM的效果如图2所示.
FFM作用: 在CP和Sp的基础之上,作者要融合两个支路的特征,考虑到CP的语义特征和SP的空间特征,作者采用FFM来高效的组合两个特征.作者直接将两个特征进行相加,来和后面的FFM模块进行对比,如图2所示。
全局平均池化作用:尽管Xception39模型的感受野理论上可以包含绝大多数的输入图像,但是作者仍然提供了全局平均池化来扩大感受野.这可以确保有效的感受野足够大,本文作者在Xception39后面接全局平均池化,并将全局平均池化后的结果上采样和Xception39最后阶段的输出进行加和.结果由67.42%升到了68.42%,如图2所示。
精度速度对比
Fig.3 Fig.4图3所示的是BiseNet网络与其他网络在速度上的对比。图4所示的是BiseNet网络与其他网络在精度上的对比。
给出一个代码的讲解链接:
http://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247494220&idx=1&sn=824d12b1856a72dc8a2f4cdc1aea6d29&chksm=e8d19d97dfa61481d67fe78fe344bd03a2eb276efa4bf9a17941d3176cfe887882b3d655ce63&scene=0&xtrack=1#rd
网友评论