摘要
现在的sota网络有很多的网络参数,不适合移动设备的使用,小内存需求的网络遵循着分类网络的设计,忽略了语义分割的固有特征,为了解决这个问题,作者提出了一个新颖的轻量化并且高效的语义分割网络-CGNet.作者首先提出了上下文指导模块(CG)block,用来从局部特征和周围上下文中学习联合特征.通过全局上下文来进一步提升联合特征.基于CG block.作者提出了CGNet,可以从网络的各个阶段捕捉上下文信息,并专为提高细分精度而量身定制的。
网络结构设计
首先,CG块从局部和周围上下文中学习联合特征,因此,CG块从物体本身和它空间相关的物体上学习特征表示,其中包含了丰富的共现关系.第二,CG块采用全局上下文来提升联合特征.全局上下文被用来逐通道的调整联合特征的权重,从而强调了有用的部分,压缩没有用的部分.第三,CG块在CGNet的所有阶段都被用到,所以CGNet可以从空间信息阶段到语义信息阶段都捕获上下文信息.现存的分割框架可以分为:1.FCN-shape的设计,遵循着分类网络的设计规则,忽视了上下文信息.2.FCN-CM模型,这类模型通过上下文模块,在编码器阶段后,只从语义阶段来捕获上下文信息.第四,现存的主流分割网络都有5次的下采样,这会导致网络学习了太多的目标抽象信息,而丢失掉许多有分辨能力的空间信息,导致分割边界过度平滑.CGNet只有三次下采样,这样有助于保留空间信息.
CGNet为了减少参数,首先,它遵循了"深且瘦"的设计来尽可能的减少内存需求.CGNet包含了51个网络层,三个阶段中的通道数量依次为32,64,128.第二CGNet采用了逐通道卷积来减少计算量.最后,在cityscapes和camvid数据集上的实验证明了CGNet的有效性和高效性,CGNet没有任何的预处理和 后处理或者复杂的上采样.
CG 模块
![](https://img.haomeiwen.com/i12153764/78d7f63ec60aab3b.png)
图1展示的是CG模块,图中Floc和Fsur分别用来学习局部特征和对应的周围的上下文特征,Floc和Fsur的卷积核都是3x3大小的,Floc 是标准的3x3卷积,用于从周围的八个特征向量中学习局部特征,Fsur是空洞卷积,可以有更大的感受野,高效的从周围学习上下文. Fjoi用来将上面的两个特征进行融合形成联合特征,作者将Fjoi设计为一个concatenation层,后接BN和PRelu.第二步中,Fglo用来提取全局特征图的上下文信息来改善联合特征,同时,Fglo受到SENet的启发,采用逐通道的自注意力模型来提高含有用信息量高的通道的权重,降低含有用信息量少的通道的权重。同时,CG block还采用了残差学习的思想,将输入CG block之前的特征图添加到后面,以此来帮助学习更复杂的特征,同时改善训练过程中的梯度反向传播。加入的残差学习有LRL和GRL两种,如图2所示。 LRL将输入和联合特征进行相连,GRL是将输入和全局特征进行相连. 直观上,GRL具有比LRL更强的功能来促进网络中的信息流。
![](https://img.haomeiwen.com/i12153764/02b6924f70eaa509.png)
![](https://img.haomeiwen.com/i12153764/1d3e2ee4eba3c723.png)
![](https://img.haomeiwen.com/i12153764/9fd25ba3eaa1cacf.png)
CGNet的细节结构如图4所示,在阶段一,作者堆叠了三层标准卷积来获得原始输入图像1/2的分辨率特征图,在阶段2和3,作者堆叠了M和N个CG块,将特征图分辨率下采样到输入的1/4和1/8.在阶段2和3,第一层的输入是上一阶段中第一个block和最后一个block的组合,这样会很好的将特征进行重用并增强了特征传播。为了改善CGNet中的信息流,作者采用了输入注入机制(input injection mechanism),该机制还分别将1/4和1/8降采样后的输入图像送到阶段2和阶段3。 最后,使用1×1卷积层进行分割预测.由于CG块用于阶段2和3的所有单元,这意味着CG块几乎用于CGNet的所有阶段,所以CGNet可以从底部到顶部来聚合上下文信息,从语义阶段的深层网络到空间层的浅层网络.此外,为了进一步的减少参数量,Floc和Fsur采用的是逐通道的卷积,深度可分离卷积后接1x1卷积,但是这样的设计不能够被用在CG块中,因为CG块中局部特征和周围上下文需要保持特征通道的独立.
实验结果
Fsur模块效果
作者采取三种验证方式,1. CGNet M3N15中不采用Fsur,通过增加通道数来配置相同数量的参数.2.Fsur只在网络的最后一个块中使用.3.Fsur在网络中的所有模块中都采用,结果如图5(a)所示,从结果可以看出,Fsur在第二和第三里面准确率增加了0.8%和5.1%.
Fglo模块效果
作者利用全局上下文来精修联合特征,如表三所示,全局上下文捕获器能够将准确率从58.9%提高到59.7%,如图5(b)所示.证明了Fglo的对于CGNet的有效性.
网络深度实验
如图5(c)所示,总体上来说,深网络的表现要优于浅层的网络,表六中显示,当固定N,随着M的增长,分割的准确率并没有增长,所以将M设置成3,然后来对比N的设置,当N=21,M=3时,CGNet在cityscapes交叉验证集上达到了63.5%的准确率.
残差学习的对比实验
如图5(d)所示,相比于LRL,GRL可以将准确率从57.2%提升到63.5%.一个可能的原因是GRL有更强的能力来存进网络中信息的传递.
![](https://img.haomeiwen.com/i12153764/9025e1b003ba2566.png)
网友评论