Simple and Efficient Architectures for Semantic Segmentation
Jun 2022
CVPR 2022 Workshop
Dushyant Mehta, Andrii Skliar, Haitam Ben Yahia, Shubhankar Borse, Fatih Porikli, Amirhossein Habibian, Tijmen Blankevoort
[Qualcomm AI Research]
https://arxiv.org/abs/2206.08236
https://github.com/Qualcomm-AI-research/FFNet
尽管语义分割的体系结构(如HRNet)的状态显示出令人印象深刻的准确性,但由于其显著的设计选择而产生的复杂性阻碍了一系列模型加速工具,而且它们还利用了当前硬件上效率低下的操作。本文证明了一种具有类似ResNet的主干和小的多尺度头部的简单编码器-解码器架构,其性能与复杂的语义分割架构(如HRNet、FANet和DDRNets)相当或更好。将为图像分类设计的深层主干简单地应用于语义分割任务会导致低于标准的结果,因为这些主干的有效感受野要小得多。在HRNet、DDRNet和FANet等作品中提出的各种设计选择中,隐含的是具有较大有效感受野的网络。如果由具有更大有效感受野的主干组成,那么简单的编码器-解码器架构是否会更好地进行比较,这是很自然的问题,尽管没有使用像扩张卷积这样的低效操作。我们表明,通过对ResNets进行少量且廉价的修改,扩大感受野,可以为语义分割创建非常简单且具有竞争力的基线。我们为桌面和移动目标提供了一系列这样的简单架构,它们与Cityscapes数据集上复杂模型的性能相匹配或超过。我们希望我们的工作为从业者开发高效的语义分割模型提供简单而有效的基线。
图1。FFNet架构包括一个主干(编码器),在这种情况下是类似于ResNet的,馈入一个紧凑的多分支Uphead(解码器),随后将多尺度特征馈入任务特定的头部。s表示块或层步长。stem的选择、主干块的宽度和深度、Up头中卷积的宽度、上采样算子的选择(双线性与最近)以及任务头的设计取决于目标平台和任务。本文中考虑的主干选项列于表1中,主干、上行和分割头选项如图2所示。 Figure 1. FFNet Architecture comprises of a backbone (encoder),in this case ResNet-like, feeding into a compact multi-branch Uphead (decoder), that subsequently feeds multi-scale features to the task specific head. ‘s’ indicates the block or layer stride. The choices for the stem, widths & depths of the backbone blocks, widths of the convolutions in the Up-head, choice of upsampling operator (bilinear vs nearest), and the design of the task head depend on the target platform and the task. The backbone options considered in this paper are listed in Table 1, and the stem, Uphead and Segmentation-head options are depicted in Figure 2.
网友评论