FaPN:用于密集图像预测的特征对齐金字塔网络
https://paperswithcode.com/paper/fapn-feature-aligned-pyramid-network-for
![](https://img.haomeiwen.com/i13727053/d60186790f2674dd.png)
摘要:深度神经网络的最新进展在密集图像预测方面取得了显著的进步。然而,为了简单起见,大多数现有方法仍然忽略了特征对齐问题。上采样特征和局部特征之间的直接像素相加会导致具有未对齐上下文的特征图,进而导致预测中的错误分类,尤其是在对象边界上。在本文中,我们提出了一种特征对齐模块,该模块学习像素的变换偏移量,以在上下文中对齐上采样的高级特征;以及另一个特征选择模块,用于强调具有丰富空间细节的较低层次特征。然后,我们将这两个模块集成到自顶向下的金字塔结构中,并提出了特征对齐金字塔网络(FaPN)。对四个密集预测任务和四个数据集的广泛实验评估证明了FaPN的有效性,当与Faster/Mask R-CNN使用时,与FPN相比,AP/mIoU的总体改善为1.2-2.6点。特别是,当与Mask Former集成时,我们的FaPN在ADE20K上达到了56.7%mIoU的最高水平。
![](https://img.haomeiwen.com/i13727053/b11e0a5ea2fc3237.png)
![](https://img.haomeiwen.com/i13727053/700f0daaae8f1239.png)
1. 引言
密集预测是计算机视觉任务的集合,旨在用预定义的类别标记图像中的每个像素。它在场景理解中起着基础性作用,对现实世界应用(如自动驾驶[7]、医学成像[45]、增强现实[1]等)非常重要。这些任务的现代解决方案基于卷积神经网络(CNN)。随着CNN体系结构的最新进展,在广泛的密集预测任务中报告了一系列有希望的经验跳跃,包括对象检测[27,40,41]、语义分割[4,29]、实例分割[13,26]和全景分割[19,20]等
密集预测需要对象位置的丰富空间细节和对象分类的强大语义,这很可能存在于不同的分辨率/尺寸级别[29]。如何在不同尺寸上有效地生成特征层次结构成为处理密集预测任务时需要克服的关键障碍之一[24]。从广义上讲,有两种常见的做法来解决这个问题。第一类使用具有不同扩张率的扩张卷积来有效地捕获长距离信息(即语义上下文),而不降低空间分辨率[4]。另一种基于ConvNet[2]的默认自下而上路径构建自上而下的特征金字塔。更具体地说,在从自下而上路径方式与对应的特征图合并之前,对(更高级别)空间上更粗糙的特征图进行上采样(The other kind builds a top-down feature pyramid based on the default bottom-top pathway of a ConvNet [2].More specifically, the (higher-level) spatially coarser feature maps are upsampled before merging with the corresponding feature maps from the bottom-up path-way.)。
然而,由于通常使用的上采样操作(例如最近邻)的不可学习性质以及下采样和上采样的重复应用,自底向上和上采样特征之间存在不准确的对应(即特征未对准)。(However, there are inaccurate correspondences (i.e. feature misalignment) between the bottom-up and upsampled features owing to the non-learnable nature of the commonly-used upsampling operations (e.g. nearest neighbor) and the repeated applications of downsampling and upsampling.)
错位的特征反过来会对后续层的学习产生不利影响,导致最终预测中的错误分类,尤其是在对象边界周围。为了解决上述问题,我们提出了一种特征对齐模块,该模块通过使用学习的偏移量调整卷积核中的每个采样位置,学习将上采样的特征映射与一组参考特征映射对齐。我们进一步提出了一种特征选择模块,以自适应地强调包含过多空间细节的自底向上特征图,从而实现精确定位。然后,我们将这两个模块集成到自顶向下的金字塔结构中,并提出了特征对齐金字塔网络(FaPN)。
从概念上讲,FaPN可以很容易地结合到现有的自下而上ConvNet主干[14,30,32,34]中,以生成多个尺寸的特征金字塔[24]。我们在现代密集预测框架(Faster R-CNN[41]、Mask R-CNN[13]、PointRend[21]、MaskFormer[8]、PanopticFPN[19]和PanopticFCN[23])中实现了FaPN,并证明了其在对象检测、语义、实例和全景分割方面的有效性。对多个具有挑战性的数据集的广泛评估表明,FaPN可以显著提高密集预测性能,特别是对于小对象和对象边界。此外,通过将FaPN与轻量级的自下而上主干网一起使用,FaPN还可以轻松扩展到实时语义分割[14,31,33]。FaPN无需bells and whistles,相对于现有的专用实时方法,它可以获得良好的性能。我们的主要贡献是:
–我们首先开发(i)一个特征对齐模块,该模块学习像素的变换偏移,以在上下文中对齐上采样(更高级别)特征;以及(ii)另一特征选择模块,用于强调具有丰富空间细节的(较低级别)特征。
–结合这两种贡献,我们提出了特征对齐金字塔网络(FaPN),它是FPN[24]的增强型替代品,用于生成多尺寸特征。
–我们在三个基准数据集(包括MS COCO[25]、Cityscapes[9]、COCO-Stuff-10K[3])上进行了全面的实验评估,证明了FaPN在四个密集预测任务(包括对象检测、语义、实例和全景分割)中的每个组成部分的有效性和价值。
–经验证明,我们的FaPN与原始FPN相比,性能(AP/mIoU)显著提高了1.2%-2.6%[24]。此外,当与MaskFormer集成时,我们的FaPN在ADE20K上实现了56.7%mIoU的最高水平[8]。
2 相关工作
特征金字塔网络主干:
现有的密集图像预测方法可以大致分为两组。第一组利用扩张卷积来扩大卷积滤波器的感受野,以便在不降低空间分辨率的情况下捕获长距离信息。DeepLab[4]是最早采用扩张卷积进行语义分割的方法之一。它引入了一个Atrous Spatial Pyramid Pooling模块(ASPP),该模块由具有不同扩张率的扩张卷积组成,以从高分辨率特征地图中聚合多尺寸背景。基于ASPP,开发了一系列方法[4-6]。然而,缺乏在多个尺寸上生成特征图的能力,限制了这种方法在语义分割之外的其他密集预测任务中的应用。第二组方法侧重于构建编码器-解码器网络,即自下而上和自上而下的路径。自顶向下路径用于通过逐步上采样将高级语义上下文逆向传递到低级特征。针对不同的密集图像预测任务,提出了大量的编码器-解码器方法[12、13、19、24、38、44、46]。DeconvNet[38]是最早提出使用具有可学习参数的上采样操作的作品之一,即反卷积。DSSD[12]和FPN[24]分别是SSD[27]和Faster R-CNN[41]的扩展,用于对象检测。Mask R-CNN[13]和SOLO[44,46]用于实时实例分割。此外,Kirillov等人提出了用于全景分割的全景FPN[19]。
特征对齐:
在一步步地下采样导致边界细节损失增加的情况下,SegNet[2]将最大池索引存储在其编码器中,并将上采样特征映射与相应的存储最大池索引一起存储在解码器中。GUN[35]在解码器中进行上采样之前,尝试学习引导偏移,然后在这些偏移之后对特征图进行上采样,而不是像SegNet那样在编码器中存储空间信息。为了解决由RoIPool中的量化导致的提取特征与RoI之间的未对准,RoIAlign[13]避免了任何量化,并使用线性插值计算每个RoI的值。为了在给定大运动的多个帧之间建立准确的对应关系以进行视频恢复,TDAN[42]和EDVR[43]在特征级别通过可变形卷积[10]实现隐式运动补偿。AlignSeg[17]和SFNet[22]是两个并行的工作,它们与我们的动机相似,都是基于流的对齐方法。特别是,AlignSeg提出了一个两分支的自底向上网络,并使用两种类型的对齐模块来缓解特征聚合之前的特征错位。相比之下,我们建议基于自下而上网络构建一个自上而下的路径,并以渐进方式将特征从最粗分辨率(顶部)到最细分辨率(底部)对齐。具体而言,我们仅将2×上采样特征与其对应的自底向上特征对齐,而AlignSeg尝试直接对齐不同尺寸的特征(即从1/4、1/8甚至1/16上采样),这是困难的,可能并不总是可行的。
3 特征对齐金字塔网络
在本节中,我们介绍了我们的方法的一般框架,包括一个特征选择模块(FSM)和一个特征对齐模块(FAM),如图3(右)所示。具体来说,我们将自底向上网络的第级的输出定义为
,其相对于输入图像的步幅为
像素,即
,其中
是输入图像的大小。简洁起见,我们用
表示
。我们使用
表示给定
输入的FSM层的输出。此外,自顶向下路径中第
个特征融合后的输出被定义为
,其被上采样后和要对齐到特征
的特征分别表示
和
。
![](https://img.haomeiwen.com/i13727053/9305ae8c36ea8282.png)
3.1 特征对齐模块
由于下采样操作的递归使用(recursive use),上采样的特征图和相应的自底向上特征图
之间存在可预见的空间错位−因此,通过逐元素添加或逐通道级联进行的特征融合将损害对象边界周围的预测。在特征聚合之前,将
与其参考
对齐是必要的,即根据
提供的空间位置信息调整
。在这项工作中,空间位置信息由2D特征图表示,其中每个偏移值可被视为
中每个点与
中对应点之间的2D空间中的偏移距离。如图4所示,特征对齐可以数学公式表示为:
(1)
其中是
和
的拼接,其提供了上采样和对应的自底向上特征之间的空间差异。
和
分别表示从空间差异学习偏移量
的函数,以及根据偏移量将特征对齐的函数。在这项工作中,
和
实现为可变形卷积[10,54],接着是激活(activation,编者注:意指激活函数?)和相同核大小的标准卷积。
![](https://img.haomeiwen.com/i13727053/1f35723de94d89ea.png)
这里,我们简要回顾了可变形卷积[10],然后解释了为什么它可以用作我们的特征对齐函数,并提供了一些重要的实现细节。我们首先定义一个输入特征映射和1个
卷积层。然后,在卷积核之后的任何位置
处的输出特征可以通过:
(2)
其中,
是
卷积层的大小(即
),
和
分别指
以下有待整理
第n个卷积样本位置的权重和预先指定的偏移。除了预先指定的偏移外,可变形卷积还尝试学习其他偏移{∆p1中,∆p2。。。,∆并且等式(2)可以重新表述为
其中每个∆pn是一个元组(h,w),其中h∈ (−嗨,嗨)和w∈ (−Wi、Wi)。
当我们在Pu i上应用可变形卷积并取Cˆi的级联时−1和Pu i作为参考(即偏移字段∆i=fo
可变形卷积可以根据等式(1)†中的偏移调整其卷积样本位置,即根据Cˆi之间的空间距离对齐Pu i−1和Pui。
3.2.特征选择模块
在对详细特征进行通道缩减之前,必须强调重要的特征图,其中包含精确分配所需的必要空间细节,同时支持冗余特征图。代替简单地使用1×1卷积[24],我们提出了一个特征选择模块(FSM)来显式地建模特征映射的重要性,并相应地重新校准它们。
建议的FSM的一般数据流如图5所示。首先,通过全局平均池操作提取每个输入特征映射ci的全局信息zi,而特征重要性建模层fm(·)(即1×,称为重缩放特征图。最后,在重新缩放的特征图上引入特征选择层fs(·)(即1×1 conv层以提高效率),用于选择性地维护重要的特征图并丢弃无用的特征图以进行信道缩减。总体而言,FSM的过程可以表述为
其中z=[z1,z2,…,zD],并通过以下公式计算
值得一提的是,我们的FSM设计是由挤压和激励(SE)驱动的[16]。主要区别在于输入和缩放特征图之间引入的额外跳连(图5)。经验上,我们发现(通过跳连)缩小缩放特征的边界是必要的,这避免了任何特定通道响应被过度放大或抑制。从概念上讲,这两个模块都学习通过通道注意力自适应地重新校准通道响应。然而,SE通常用于主干中以增强特征提取,而FSM用于颈部(即自顶向下路径)以增强多尺寸特征聚合。此外,FSM中的选定/缩放特征也作为FAM的参考,用于学习对齐偏移。
4.实验
在本节中,我们首先简要介绍本工作中研究的基准数据集,然后介绍实施和训练细节。然后,我们评估了所提出的FaPN在四个密集图像预测任务中的性能,包括目标检测、语义、实例和全景分割。还提供了证明FaPN中各成分有效性的消融研究。此外,我们将我们提出的FaPN与轻量级主干结合起来,并在实时设置下评估其功效。
数据集:
我们考虑了四个广泛使用的基准数据集来评估我们的方法,包括用于对象检测、实例和全景分割的MS COCO[25];城市景观[9]、COCO-Stuff-10K[3]和ADE20K[53]用于语义分割。
MS COCO由超过100K幅图像组成,包含各种对象和注释,包括边界框和分割掩码。我们使用train2017集合(约118K图像)进行训练,并报告val2017集合(5K图像)的结果进行比较。对于对象检测和实例分割任务,有80个类别;对于全景分割任务,有80个物体和53个物体类被注释。
城市景观是城市街道场景语义理解的大规模数据集。它分为训练集、验证集和测试集,分别有2975、500和1525幅图像。注释包括30个类,其中19个用于语义分割任务。该数据集中的图像具有更高的统一分辨率1024×2048,这对实时语义分割任务提出了严峻挑战。对于本部分所示的实验,我们仅使用具有精细注释的图像来训练和验证我们提出的方法。
COCO-Stuff-10K包含来自COCO数据集[25]的10K图像的子集,具有密集的填充注释。对于语义分割来说,这是一个具有挑战性的数据集,因为它有182个类别(91个事物类加91个素材类)。在这项工作中,我们遵循官方的分割——9K图像用于训练,1K图像用于测试。
ADE20K是一个具有挑战性的场景解析数据集,包含20k个用于训练的图像和2k个用于验证的图像。数据集中的图像被密集地标记为数百个类。在这项工作中,只选择了150个语义类别纳入评估。
实施细节:
根据FPN[24]的原始工作,我们使用在ImageNet[11]上预先训练的ResNets[15]作为自下而上路径的主干ConvNets。然后,我们将FPN替换为我们建议的FaPN,作为自顶向下的路径网络。接下来,我们将特征金字塔与用于对象检测的Faster R-CNN检测器[41]和用于分割任务的Mask R-CNN(使用PointRend掩蔽头[21])连接起来。
对于性能评估,平均精度(AP)被用作对象检测和实例分割的主要指标。我们评估小、中、大对象的AP,即AP、APm和APl。请注意,APbb和APmask分别表示边界框和分割掩码的AP。联合平均交集(mIoU)和全景质量(PQ)分别是用于语义和全景分割的两个主要指标。此外,我们还使用PQSt和PQT h度量来分别评估全景分割的物体和物体性能。
4.1.烧蚀研究
我们首先细分了FaPN中引入的两个组件的单独影响,即特征对齐和选择模块。使用ResNet50作为自下而上的主干,我们对城市景观进行语义分割评估。表1显示了准确性的提高以及#Params中测量的复杂性开销。
显然,随着模型尺寸的边际增加,我们提出的特征对齐模块单独显著提高了原始FPN的性能[24],从而使mIoU提高了2.3点。特别是,我们的方法(80.0@33.1M)比单纯地将FPN的#参数增加3×(77.5@33.4M)或ii)从R50到R101的主干的容量(78.9@47.6M). 经验上,我们观察到SE[16]的幼稚应用(用于特征选择)会对性能产生不利影响,而我们提出的FSM会进一步提高mIoU。
回想一下,这项工作中的未对准是指在多分辨率特征图(即FPN中的自上而下路径)聚合期间,特别是在对象边界周围,导致的特征空间未对准。一个可能的原因与常用上采样操作(例如双线性)的不可学习性有关。然而,简单地将其转换为可学习的操作(例如反卷积)是不够的,这表明需要更好的工程方法。这增强了这项工作的动力。代替在特征融合之前执行特征对齐,我们将FAM放置在特征融合之后,其中我们的FAM从融合的特征中学习偏移。尽管这种变体比所有其他变体表现得更好,但它仍然比建议的FaPN差得多,后者重申了在融合之前进行特征对齐的必要性。
4.2边界预测分析
我们在表2中提供了边界像素的mIoU。显然,我们的方法比边界上的FPN实现了更好的分割性能。此外,我们将FaPN-R50(图6)中最后一个特征对齐模块的输入(上采样特征P u 2)和输出(对齐特征Pˆu 2)可视化,以感知FAM所做的对齐校正。与原始上采样特征(在FAM之前)的噪声和波动相反,对齐特征是平滑的,包含更精确的对象边界。定量评估和定性观察都是一致的,表明FaPN可以更好地预测边界。图2中提供了更多的可视化。
4.3.主要成果
在本节中,我们将在四个密集预测任务上与FPN[24]进行详细的经验比较,分别包括表3-6中的对象检测、语义、实例和全景分割。
一般来说,FaPN在任务和数据集的所有场景中都明显优于FPN。有几个详细的观察结果。首先,FaPN使用ResNet50[15]作为自下而上的主干,在所有四项任务中,将主要评估指标提高了1.2-2.6点。其次,FaPN带来的改进支持更强的自下而上主干(例如ResNet101[15]),其训练计划为270K次迭代。第三,FaPN的改进扩展到更复杂的掩模头,例如PointRend[21],如表5(底部)所示。
特别是,我们注意到在小对象(例如APbbs、APmask)上的改进更大。例如,在MS COCO对象检测和实例分割方面,FaPN将小对象上的边界框AP分别提高了2.1点和1.8点。从概念上讲,小对象在图像中占据较少的像素,并且大多数像素沿对象边界分布
因此,能够正确分类小对象的边界是至关重要的。然而,当特征通过基于启发式的上采样操作(例如,FPN使用最近邻上采样)遍历自上而下的路径时,像素偏移(即未对准)是可预见的,并且偏移量将随着上采样步骤数的增加而累积。因此,未对准的严重性将在自上而下路径金字塔中最精细的特征图处达到最大,这些特征图通常用于检测或分割小对象,从而导致性能显著下降。另一方面,与FPN相比,FaPN逐步执行特征对准,从而逐步减轻最精细级别的未对准,从而在小对象上实现显著改进[24]。图7也证明了定性改进。最后,我们将FaPN并入MaskFormer[8],并证明FaPN在两个复杂的语义分割任务(即ADE20K和COCO-Stuff10K)上具有最先进的性能,如表7所示。
总体而言,对由不同任务和数据集组成的场景进行的广泛比较证实了我们提出的FaPN对于密集图像预测的有效性。用FaPN直接替换FPN,无需吹嘘即可实现显著改进。对不同的自底向上主干或面罩头的通用性和灵活性进一步增强了FaPN的实用性。
4.4.实时性能
在现实世界应用(例如,自动驾驶)的推动下,实时密集预测越来越受到关注,这要求以最小的延迟生成高质量预测。在本节中,我们的目标是研究我们提出的FaPN在实时设置下的有效性,即推理速度≥ 每秒30帧。补充材料中提供了全部细节。
在准确性(mIoU)和推理速度(FPS)方面,我们将FaPN与表8中的Cityscapes和COCOStuff-10K上最先进的实时语义分割方法进行了比较。一般来说,我们观察到,用所提议的FaPN直接替换FPN会导致与其他专用实时语义分割方法相比具有竞争力的基线。
特别是,在Cityspaces上,FaPN-R18的运行速度比SwiftNet快2倍[39],同时保持了类似的mIoU性能。此外,凭借更大的主干和输入尺寸,FaPN-R34在测试拆分中实现了78.1点的竞争性mIoU,同时输出30 FPS。在更具挑战性的COCO-Stuff-10K上,我们的FaPN也大大优于其他现有方法。具体而言,FaPN-R34在以mIoU测量的分割精度和推理速度方面都优于BiSeNetV2[48]
5.结论
本文介绍了特征对齐金字塔网络(FaPN),这是一种简单而有效的自顶向下金字塔结构,用于生成用于密集图像预测的多尺寸特征。它包括特征对齐模块,该特征对齐模块学习像素的变换偏移;以及特征选择模块,用于强调具有丰富空间细节的较低级别特征。从经验上看,FaPN在四个密集预测任务和三个数据集上比原始FPN有了实质性和一致性的改进。此外,FaPN集成在强大的基线中,可提高最先进的分割性能。此外,通过将FaPN与轻量级主干进行配对,FaPN可以很容易地扩展到实时分割任务,在这里我们证明了FaPN相对于专用实时方法表现良好。简言之,鉴于FaPN在简单实现的基础上具有良好的性能,我们相信FaPN可以作为密集图像预测的新基线/模块
附录
在本补充材料中,我们包括(1)A节中的其他训练细节;(2) B部分中关于实时语义分割实验的更多细节;以及(3)额外的定性可视化,以证明C节中拟议FaPN的有效性。
A、 训练设置
对于主论文中显示的所有实验,我们使用具有0.9动量和0.0001权重衰减的SGD优化器。还应用了水平翻转和缩放的标准数据增强。此外,从ImageNet预训练模型导出的批次标准化[18]层的权重保持冻结。为了与之前的工作保持一致,我们没有加入任何测试时间增加技巧。对于语义分割,该模型被训练为65K次迭代,学习率为0.01,在40K和55K时降低10倍。对于其他三个密集预测任务,模型被训练为90K或270K迭代,初始学习率为0.02,在60K/210K时降低到0.002,在80K/250K时降低为0.0002。我们的实现基于默认配置的Detectron2[47],即,为了与之前的工作保持公平的比较,我们既没有调整任何训练超参数,也没有使用高级数据增强
B、 实时语义分割(续)
使用轻量级ResNet(例如ResNet18/34)作为自下而上的主干,我们将最后三个阶段(即conv3、conv4、conv5)输出的特征图分别表示为{C3、C4、C5}。开始时,我们只需在C5上附加一个FSM层,以生成最粗分辨率的特征图P5∈ R 128×H 32×W 32(即FSM的输出通道为128)。使用较粗分辨率的特征图Pi(l∈ [4,5]),我们使用最近邻上采样[24]将其空间分辨率上采样2倍,以获得P up i∈ R 128×H 2i−1×宽2i−1.之后,使用FAM层将P向上i与其对应的自底向上特征图Cˆi对齐−1.∈ R 128×H 2i−1×宽2i−1源自Ci−1通过经历用于信道减少的FSM层。然后将对齐的Pˆup i与C \710 i合并,而不是元素相加−1和合并后的特征图Pi−1.∈ R 256×H 2i−1×宽2i−1具有与Ci相同的空间大小−1被进一步输入到Conv 1×∈ ×W8。最后,我们在P3上添加预测层以生成最终的语义掩码。
我们使用SGD优化器训练模型,动量和权重衰减分别设置为0.9和0.0005。在训练过程中,我们将随机水平翻转和缩放应用于输入图像,然后将其裁剪为固定大小。尺寸从{0.75、1、1.25、1.5、1.75、2.0}中随机选择,城市景观[9]和COCOStuff[3]的裁剪分辨率分别为1536×768和640×640。对于所有数据集,我们将批量大小和初始学习率分别设置为16和0.01,而学习率按照“poly”策略衰减,特别是0.01×− iter maxiters)0.9。根据之前的工作[48,49],我们分别在Cityscapes和COCOStuff上训练40K和20K训练迭代的模型。在评估过程中,我们使用一个Titan RTX GPU计算推理速度,不使用任何加速技巧(例如,Apex或TensorRT)或优化的深度卷积,并在没有任何测试增强技术(例如,多裁剪或多尺寸测试)的情况下评估准确性。
表I:实时语义分割的消融研究:我们建议的实时语义分割FaPN与城市景观val集合中的每个组件在准确性、参数和FLOP(计算复杂性)方面的详细比较。
我们首先分别验证了我们提出的实时语义分割框架中每个模块的有效性,然后研究了城市景观价值集上的不同特征融合方法。在下面的消融分析中,我们使用在ImageNet上预先训练的ResNet18作为我们的主干。
表I给出了消融实验结果。基本上,将FAM纳入基线将性能从68.6%提高到73.8%。此外,FSM仅使用0.4M个额外参数,将性能提高到74.2%。此外,当我们用级联替换逐元素求和运算以融合细节特征和对齐的语义特征时,只需很少的额外FLOP,就可以实现1.4%的改进。
图1显示了实时设置(FPS)下FaPN在城市景观上的语义分割结果≥ 值得注意的是,拟议的特征对齐模块(FAM;图I中的第三列)显著提高了基线(即FPN;图I的第二列)的分割质量。通过特征选择模块和特征级联,我们的最终方法FaPN进一步提高了实时语义分割的性能。
C、 其他可视化
图II和图III显示了MS COCO的密集预测性能。显然,我们的方法在对象边界和小对象上实现了更精确的分割。
网友评论