摘要
作者提出的MSFNet是基于文章提出的多特征融合模块构建的,同时使用类边界监督来处理相关的边界信息,该模块可以获取空间信息并扩大感受野范围。
作者指出实时语义分割关键是如何扩大感受野,并且在保证小计算量的同时恢复空间信息的损失。在这个基础上,作者提出了MSFNet。MSFNet的核心是MFM(多重特征融合模块)。它使所有不同比例尺的特征图与较大的特征图融合,以扩大感受野并恢复更多的空间信息。基于这样的模块,最后的特征图(1/8的输入尺寸)包含了丰富的空间信息并且显著的减少计算量。另外,作者提出了类边界监督(CBS)例来避免丢失与边界相关的间信息。
网络模型
多特征融合模块(MFM)
高层的空间信息在多次的下采样后会严重丢失。在高层特征图中目标的分辨率很小,不能够准确的保留他们的形状,为了解决这个问题,一些方法使用SPP和ASPP用来捕获充足的感受野,然而,这些特殊结构通常用于丰富高层语义信息,而不是底层空间信息。
空间感知池化(SAP)。基于以上分析,作者提出了一种称为空间感知池(SAP)的新颖结构,该结构遵循主干的每个残差块。为了提取丰富的特征,作者使用了一些步长为s,核大小为2s+1的池化层,对于高分辨率的输入图像,作者将每个残差块的特征下采样5次。每一个残差块的输出尺寸为。H和W是输入的尺寸。C是通道的数量,代表的是步长。池化操作被定义为步长为核大小为的,其中。SAP的输出可以被定义为公式1.
formula.1,是第i个残差块中的第j个SAP的输出。
特别的是,并没有在上采样中使用,因为的特征图大小是输入图像的1/4,而作者的网络结构是直接从原图像1/8尺寸下面进行上采样。
相当大的感受野和空间信息的准确恢复对于语义分割都是非常重要的。 在作者的模型中,通过精心设计的结构,可以弥补空间信息的损失,并且可以在一定程度上感受野范围。 而且,作者提出的方法在每个感受野层次中都具有更好的空间信息恢复能力,并且在不增加计算成本的情况下极大地提高了性能。
特征融合:作者将空间感知池化输出中具有相同的分辨率的输出进行聚合,然后使用核k = 3的深度可分离卷积层融合输出,因为聚合后通道数量众多,因此可以降低计算成本。 这样不仅可以合并backbone中不同层提取的特征,来增加信息的流动性,而且可以增强语义层对空间信息的敏感性。
类边界监督:相比于从1/8进行上采样,1/4进行上采样的计算量是其4倍,因此作者设计的上采样分支可以从1/8进行上采样,同时表现出良好的分割性能。作者注意到,编码器中的浅层具有丰富的空间信息。但是,由于最终的上采样特征图尺寸较小,他们无法完全恢复与边缘相关的信息。为了克服上述问题造成的精度损失,作者提出了一种相同且独立的多任务上采样解码器,以实现类边界监督。多特征融合模块在每个阶段都丰富了高质量的特征,这能够通过快速的上采样分支来获得令人满意的分割结果。为了恢复边缘空间信息并进一步提高分割效果,作者提出了两个独立的上采样分支。在上采样过程中,两个上采样分支根本不相互传递信息。对于边界,作者使用真是标签的边界来监督分割任务,来更加关注边缘轮廓。每个上采样阶段都有不同的分辨率。它有两个输入,一个是前一阶段的双线性上采样特征,另一个是具有与该阶段相同的分辨率的多特征融合模块的输出特性。最后,当分辨率为原始图像尺寸的1/8时,我们通过使用深度可分离卷积来融合最终采样,从而将两个上采样分支融合在一起,并稍微提升了速度。
网络结构
首先,多特征融合模块创新地考虑了感受野和空间信息的改进,同时由于其优化的网络结构而没有增加额外的计算成本。 这是一个密集的连接框架,效率更高,与U-Shape完全不同。 其次,作者使用一个独立的分支来进行边缘相关信息的提取,可以有效地实现类边界监督,并纠正最终的语义分割结果。简而言之,我们的网络结构是典型的编码器-解码器体系结构。 为了进行实时推理,必须使用轻量级的主干作为编码器以提取特征。 而且,作者使用多特征融合模块来支持快速上采样分支,作为解码器以获得更好的结果。 需要注意的是,类边界监督是一个独立的模块,也可以轻松地应用于其他不同的网络结构。
Fig.1MSFNet网络结构图实验结果
损失函数:作者使用了一个辅助损失函数来监督一个上采样分支,以提取与边缘相关的空间信息。另外作者使用了一个主要的损失函数来监督整个网络的输出,所有的损失函数都是标准的的交叉熵损失函数,作者使用了一个参数lambda来平衡两个损失的权重。
多特征融合模块:多特征融合模块为上采样分支中的每个阶段提供了必要的特征信息。如图2表1所示,当pooling数量从0到2时,准确率也快速提升。注意:当pooling数量为0代表了普通的U形结构。当pooling数量从2到4时,准确率上涨的很少,当从4到5时,准确率又有了很大的提升。mIOU达到了77.2%。pooling次数为5时性能提高的原因是此时的特征图非常小,该模型可以融合全局信息,促进梯度信息的传播,并促进模型更好地提取不同级别的信息。池化层的核大小为stride x 2 + 1,这可以增加模型的鲁棒性。这样的参数设置可以确保特征图中的每个像素可以被至少四个窗口所捕获,从而提高特征融合的效率,和空洞卷积相比,SAP模块不需要保持原始空间分辨率。由表5所示,使用空洞卷积只能得到74.8%的准确率。
Fig.2类边界监督:首先,作者定义边界宽度参数。 一个像素是边界像素,当且仅当在距它的距离内至少有一个像素与当前像素不属于同一类别。接下来是定义真实的标签,如果是边界像素,那么它的class就是该类别的class,否则就是0。作者采用了两种方式来计算边界损失,分别是将1/8的特征图进行上采样,或者是直接在1/8特征图上进行损失的计算。如图2表4所示双线性上采样会导致表现不好,原因是双线性上采样会导致一个连续的边界,但是1/8特征图中的空间边界可能是不连续的,这会干扰主分支的分割效果。然而当在1/8特征图上进行损失计算时,这种不连续空间特征带来的波动可以避免。为了对比,作者试验了不同的边界监督实验,如图2表2.作者将边界的像素置为1,其他的像素置为0(也就是说出了边界的值为1,其他的像素都是0).这导致了准确率从77.2%降到了76.3%。
速度和准确率对比
Fig.3 cityscapes测试数据集表现从图3可以看出,作者的方法比现存的其他实时分割方法都要好,速度上也不落下风。
网友评论