摘要
作者提出了一种图像级联网络(ICNet),该网络在适当的标签指导下合并了多分辨率分支。作者对ICNet进行了深入分析,并引入级联特征融合单元以快速实现高质量的分割。由此可见,ICNet属于多支路轻量化分割网络。
作者首先对语义分割中的时间预算进行了深度的分析,并进行了大量的实验来证明直观加速策略的不足,而这促进了图像级联网络(ICNet)的生成,该网络是一个高质量和高效的分割网络。 它利用了处理低分辨率图像的效率和高分辨率图像的高推理质量。
ICNet的思想是首先将低分辨率的图片经过完整的语义感知网络来获取错操的预测特征图,然后提出了级联特征融合单元和级联标签指导的策略,以融合中、高分辨率特征,逐步完善粗略语义图。
网络结构设计
ICNet网络结构ICNet采用了级联特征融合单元并结合级联标签指导进行训练,而不是采用级联的输入图片(低、中、高分辨率图片)。ICNet的结构如图1所示,具有全分辨率的输入图像(例如Cityscapes [7]中的1024×2048)通过2和4因子进行下采样,从而形成了对中分辨率和高分辨率分支的级联输入。采用经典的分割网络(例如FCN)对高分辨率的输入进行分割非常的耗时,为了克服这一缺点,作者使用低分辨率输入进行语义提取,如图1顶部所示。将1/4尺寸的图像送入下采样率为8的PSPNet,从而生成1/32分辨率的特征图。 为了获得高质量的分割,中等和高分辨率的分支(图1中的下部)有助于恢复和完善粗略的预测。尽管低分辨率的输入会丢失细节的信息,但是顶部的支路已经收获了大多数的语义部分。 因此,作者采取限制中低支路的参数数量。底部的分支中作者采用了轻量级的CNN(绿色虚线框);作者采用了级联特征融合单元(CFF)来将不同支路的特征进行融合,并通过级联标签指导进行训练。
尽管顶部的支路是一个完整的分割backbone,但由于输入分辨率小,因此计算量也不是很大,即使对于具有50层以上的PSPNet,对于Cityscapes中的大图像,推理时间和内存也为18ms和0.6GB。由于权重和计算(在17层中)可以在顶部分支和中间分支之间共享,因此仅花费6毫秒即可构建融合图。 底部分支的层数更少。 尽管分辨率很高,但推理仅需9ms。 通过这三个分支,ICNet成为一种非常有效且对内存友好的体系结构,可以实现高质量的分割。
CFF模块
为了融合不同分辨率的特征,作者提出了CFF模块,如图2所示。输入包含了三部分,两个特征图F1(C1xH1xW1)和F2(C2xH2xW2)以及一个标签(1xH2xW2)。F2的分辨率是F1的两倍。作者首先使用双线性插值将F1的分辨率提升两倍,变成F2相同的分辨率,然后使用卷积核大小为C3x3x3和空洞率为2的卷积核来精修上采样特征。此时特征变为了C3xH2xW2.空洞卷积结合了来自几个原本相邻像素的特征信息。相比于反卷积,上采样+空洞卷积只需要更小的卷积核,便可以收获相同的感受野。为了获得相同的感受野,反卷积需要更大的卷积核尺寸,这会造成更大的计算量(这里可以反向来理解,一个空洞率为2,卷积核大小为3的卷积相当于卷积核大小为5的卷积核,再加上下采样率为2的双线性插值,所以相当于7x7的卷积核的感受野,也就是3x3 vs 7x7)。对于特征F2,采用卷积核为C3x1x1的卷积来讲F2进行映射,映射后的特征数量和F1相同。接着采用BN对F1和F2特征进行归一化,然后讲两个特征图进行相加并采用Relu激活函数处理,得到特征图F`2(C3xH2xW2)。为了增强对F 1的学习,我们对F1的上采样特征使用了辅助标签指导。
Fig.2 CFF模块级联标签指导(CLG)
为了增强每个支路的学习过程,作者采用了级联标签指导的策略。使用不同尺寸(1/16、1/8、1/4)的真实标签来指导顶部中部和底部的学习阶段。
结构对比分析
作者对比了ICNet和目前存在的级联结构的分割网络的不同,如图3所示,之前的结构都是给定高分辨率输入,进行相对密集的计算。但是ICNet只需要给heavy CNN小分辨率的输入(这里的heavy是指计算复杂)来减少计算量,同时产生一个粗略的分割预测,较高分辨率的输入用于逐步恢复和完善对于模糊边界和缺失细节的预测。高分辨率的输入采用的是轻量化的CNN,CFF模块和标签指导策略讲中高分辨率的特征进行整合来逐步精修粗糙的分割特征图。基于这种设计,ICNet获得了高效的推理速度和合理质量的分割结果。
Fig.3 网络结构对比分析实验结果对比
作者对级联支路进行了对比试验,baseline是压缩一半的PSPNet40,170ms的前向推理时间,mIOU是67.9%。这表明,在保持良好的分割质量的条件下,模型压缩几乎没有机会获得实时性能。为了显示ICNet的有效性,作者将低,中和高分辨率分支的输出表示为“ sub4”,“ sub24”和“ sub124”,其中数字代表所使用的信息。sub4表示的是仅使用顶部支路,sub24表示的是使用顶部和中部的支路,sub124代表使用全部的支路。
结果如图4 Table2所示。只用顶部支路时,尽管速度是最快的,但是准确率掉到了59.6%,用顶部和中部分支时,准确率为66.5%,全部支路都使用时,准确率为67.7%,而计算速度却没有太多的下降。
CFF与CLG模块
作者还对级联特征融合单元和级联标签引导进行了对比实验研究。 结果如图4 Table3所示。与3×3和5×5大小的卷积核的反卷积层相比,级联特征融合单元具有更高的mIoU性能,网络推理速度相近。 与具有7×7的较大内核的反卷积层相比,mIoU性能接近,但是级联特征融合单元的推理速度更快。 如果没有级联标签指导,性能将下降很多,如最后一行所示。
Fig.4
网友评论