题目
PAGE-Net: Salient Object Detection with Pyramid Attention and Salient Edge
具有金字塔注意力和突出边缘的突出目标检测
摘要
本文提出了一种利用卷积神经网络(CNN)检测图像中显著目标的新方法。该网络名为PAGE-Net,它作出了两个主要的新贡献。第一种方法是设计一个基本的金字塔注意结构,用于显著目标检测,使得网络在开发多尺度显著信息的同时能够更多地关注显著区域。这种层叠式注意力设计提供了一种有效增强相应网络层表示能力的有效方法,并具有扩大的接收域。第二个贡献是提出了一个显著边缘检测模块,它强调了显著边缘信息的重要性,因为它提供了一个强有力的线索,以更好地分割显著对象和细化对象边界。这种显著边缘检测模块学习用于预融合显著边界估计,从而鼓励更好地保持边缘的显著对象分割。大量实验表明,所提出的金字塔注意和显著边缘对显著目标检测都是有效的,并且我们的PAGE-Net在具有快速输入速度(单个GPU上的25FPS)的几个流行基准上优于现有方法。
引言
显著目标检测(SOD)是指在图像中定位和分割最显著目标或区域的问题。它可以广泛地用于改进各种视觉任务,例如对象建议生成[2]、对象分割[37]和视频对象跟踪[11]等。SOD在计算机视觉领域得到了广泛的研究。传统的方法往往设计手工制作的低层特征,并做出启发式假设[41,15],这对于复杂场景的图像往往不能产生令人满意的结果。近来,深层学习方法已经成为SOD的一个重要趋势,并且经常报告显著的改进。尽管SOD的研究非常活跃,但是如何设计一个有效的SOD深层神经网络模型仍然是一个有待解决的问题。
本文提出了一种新的金字塔注意和显著边缘感知显著性模型page net,用于显著性目标检测,该模型具有两个关键模块:(1)一个金字塔注意模块,通过考虑显著性的多尺度注意和扩大接收场,有效地增强显著性模型表示;以及(2)一个突出的边缘检测模块,明确学习突出的对象边界,以更好地定位和锐化突出的对象。本文提出的PAGE-Net设计主要有以下两个方面。
首先,特征表示是基于深度学习的显著性模型的关键,探索更有效的尺度空间特征学习策略一直是人们所希望的。正如许多SOD研究[46,31,49,12]所见证的,多尺度显著性特征对SOD至关重要。因此,最近的深度显著性模型主要集中于组合来自中间网络层的输出。与已有的工作不同,我们提出了一种新的金字塔注意模型,它继承了注意机制的特征增强能力,并明确地处理了多尺度显著特征学习问题。将注意力机制结合到网络中已被证明对选择任务相关特征是有用的[30]。如图1所示,我们扩展了具有层次结构的注意机制以增强显著性计算。这种设计很重要,因为它有效地增加了conv层(甚至对于浅层)的接收场。我们鼓励显著性模型使用多尺度信息集中在重要区域(图1(b))。通过金字塔式注意,原始特征(图1(c))中的背景响应被成功地抑制,导致更具辨别性的显著性表示(图1(d))和更好的结果(图1(g))。这种注意模块还通过解释显著性模型所关注的位置来提供可解释性的额外维度。
其次,还希望找到一种提高显著目标检测结果的清晰度的有效方法。CNN被设计成通过重复的池和子采样操作来产生分层的特征图,其中较高层获得更大的接收场,并且自上而下的网络架构[46、12、24] (参见图2(a)中的方案)已经被广泛研究,以逐步地以自上而下的方式恢复显著的对象细节,即锐度问题仍然是一个挑战。受语义分割[4,6]最新进展的启发,我们提出在显著性模型上配备一个显著性边缘检测模块,专门设计用于检测显著性对象边界。因此,网络可以利用更明确的显著边缘(图1(e))来更好地定位显著对象并锐化结果(图1(g))。
综上所述,我们的主要贡献有三个方面:(1)我们提出了一个金字塔注意模型,用于具有多尺度特征学习的区分显著性表示,以及一个扩展的接受域(3.1);(2)我们提出了一个显著性边缘检测模块,它显式地利用显著性边缘信息进行显著性物体检测(3.2);以及(i i i)我们在六个流行的基准上执行广泛的实验,即,ECCSD[41]、DUT-OMRON[42]、HKUIS[19]、PASCAL-S[23]、SOD[28]和DUTS-TE[32],其中提出的深显著性模型在多个强基线上产生一致的改进。最后,该模型在现代GPU上运行速度快,达到了25FPS的实时推理速度。
相关工作
1、显著目标检测
突出物检测的开创性工作可以追溯到Liu等人[26]和Achanta等人[1]。从那时起,报告了大量后续工作,主要使用基于对比度的假设[9,41,15]和之前的背景[38,50]。这些早期的方法常常严重依赖于手工制作的特征和启发式假设。
近年来,由于CNN在计算机视觉方面的巨大成功,深层学习已经成为SOD的一个有前途的替代方法。基于CNN的显著性模型允许具有强大端到端学习能力的灵活显著性表示,从而获得明显优于经典方法的性能。在文献中已经提出了多种深度学习方法。例如,一些方法将深度学习模型与手工制作的特征[18]、启发式显著性先验[33]、水平集[13]、上下文信息[49]或显式视觉固定相结合[36]。其他方法利用全局和局部显著性信息[19,31,46,27],结合像素和段级特征[20],激发网络层之间的连接[12],或者探索更复杂的深层架构[16,24,47,34]。
我们的方法与现有研究的一个显著区别在于其边缘保持特性。当前突出的网络体系结构倾向于堆叠多层特征。虽然最终的预测层访问多尺度、多层次的信息,产生更精确的显著性分割,但是由于conv核的平滑性和空间池的下采样,锐化问题仍然没有解决。一些后处理启发式算法[33,12,20]已经被采用,但是很少有人研究如何通过端到端训练将显著边缘信息嵌入到深度显著性模型中。最近的一些方法[45,21]也探索了边界线索,但它们与我们的非常不同。例如,Zhang[45]等。简单地使用额外的损耗来强调对突出对象边界内的像素的检测误差。在[21]中,他们考虑了来自预训练轮廓检测器的语义轮廓信息[43]。相比之下,我们使用显著边缘检测模块扩展了每个侧向外层,并学习了端到端的边缘和目标信息的组合。
2、网络中的可训练注意机制
深层神经网络的注意机制是近年来研究的热点,它是由Bahdanau等人首次提出的。〔3〕用于神经机器翻译。后来,它在许多自然语言处理和视觉任务中被证明是有用的,例如,字幕生成[40]、问题回答[44]和场景识别[5,30]等等。在这些研究中,注意力是以自动、自上而下和目标驱动的方式学习的,允许网络将注意力集中在图像或句子中与任务最相关的部分。只有少数SOD[48,25,7]的最新方法使用注意力网络。但是我们的方法与他们的非常不同,因为他们通常只考虑单层的注意力设计。在我们的方法中,对于每个控制层,都配备了一个注意力金字塔,用于基本学习,以将更高的重要性分配给显著区域,同时解决多尺度学习的问题。更重要的是,这种金字塔式注意力设计使得我们的模型具有全局的视角,并且通过扩大的接受领域提高了学习能力。
我们的方法
图2(b)给出了PAGE-Net的简化图示,该PAGE-Net由三个部分组成:用于特征提取的骨干网络、金字塔注意模块和显著边缘检测模块。我们首先在3.1中描述我们的金字塔注意力模块(图2(b))。在3.2中详细描述了我们的显著边缘检测模块(图2(b))。最后,在3.3中,我们给出了更多的实现细节。
金字塔注意模块
对于每个显著性网络层,首先结合金字塔注意模块来生成更具区分性的特征表示。与以往对显著特征的所有位置都一视同仁的显著性模型相比,我们的模型关注重要区域的特征,并考虑多尺度信息。这是使用堆叠式注意力架构来实现的:基于多尺度特征的多个注意力层被堆叠以形成统一的金字塔注意力模型。
更具体地说,设X表示来自显著网络的卷积层的3D特征张量(在图2(c)中)。这通常由宽度M和高度M:X∈R M×M×C的C通道组成。我们的目标是学习一组等空间大小的注意力掩码,基于多尺度信息,对输出显著性特征X进行软加权。本质上,我们通过逐步下采样X到多分辨率{X n:M X n∈R2n×2n×C,n=1,2,3,.…N}具有N个步骤。对于在一定尺度n内的X n,我们使用软注意机制-M nism[40]来预测重要性映射l∈[0,1]2n×2n。特别地,在2n×2n个空间位置上应用软最大操作。位置软最大值可以被认为是我们的模型认为输入特征中的相应区域很重要的概率。其定义为:
一旦获得全部{X n}N上的注意概率{l n}N=1,就采用n=1n的上采样操作来调整它们的大小使其达到原始分辨率:{l 0∈M×M N[0,1]}n=1。图3为我们的注意力模块提供了更详细的说明。显然,这些注意力图(图3(d))对应于不同的分辨率,并且可以显示重要区域。更重要的是,金字塔注意模块配备了叠加池操作,极大地改善了相应的特征提取层的接收场。
在计算了这些重要概率之后,通过考虑不同区域中的特征片的期望值来改进原始特征表示X:
其中Y是更新的特征,Y j是特征立方体的第j个切片。这里,该模型通过对不同区域中的图像特征的期望来计算输入的期望值。我们的注意力模块不仅用于增强聚焦位置中的显著性表示,而且用于解释多尺度信息。正如[30]中所讨论的,通过注意力图细化的特征通常具有接近于零的大量值。因此,许多细化的特征的堆栈使得反向传播变得困难。为了解决这个问题,我们在等式2中应用身份映射[10]:
即使注意力很小(l 0 j_0),来自原始特征X的信息仍然可以通过残余连接来保存。如图3(c)和(e)所示,注意模块能够增强特征图,以便更有效地进行显著性表示。这种金字塔式注意力结构提供了分配每个相应conv层的全局视图的可行方法(具有显著扩大的接受域;参见图2(d))。注意力模块的更详细的体系结构在_3.3中给出。
讨论。不同位置的特征对显著性计算的贡献并不相同。因此,我们引入注意机制来关注那些对突出物体的本质最关键的位置。通过我们的设计,注意模块可以通过迭代下采样特征图来快速地收集多尺度信息,这种金字塔结构使得特征层的接收场易于快速地扩大。在图4中,我们观察到所提出的金字塔注意模块能够获得更高的训练效率和更好的性能。与以往的注意力模型相比,金字塔注意力模型由于能够有效地利用多尺度特征和具有扩大的接收场的强大表示而更加有利,所有这些对于像素级显著性估计都是必不可少的。
凸缘检测器
利用改进的显著性特征Y,可以通过直接将Y馈入带有sigmoid的一小堆conv层来生成显著性映射,如前面的方法中所做的那样。然而,我们观察到,检测不能在显著对象和背景之间产生清晰的边界(参见图5(b))。这主要是由于conv内核的平滑性和池层的下采样。为了解决这个问题,我们设计了一个额外的显著性边缘检测模块(见图2(d)),以迫使网络强调显著性边界对齐,并学习使用显著性边缘信息来细化显著性映射。
设{(I k,G k,P k)}K=1表示训练数据,其中I k,G k和P k分别是彩色图像、相应的地面真值显著性图和显著目标边界图。注意,边缘图P k(图5(d))可以很容易地从地面真值显著性图G k(图5(f))获得。我们首先在图2和图5(c)中建立一个显著边缘检测模块,它可以为输入图像I k.这里F表示由一组conv层组成的显著边缘检测模块,Y I k对应于I k的增强特征。可以通过最小化以下L2范数损失函数来学习F:
然后建立显著性读出网络R(y i k,f(y i k)),通过考虑显著性特征y i k和显著性边缘信息f(y i k),生成显著性估计(见图2)。因此,可以通过最小化以下组合损失来学习整个模块:
其中,显著性损耗L Sal是加权交叉熵损耗,该加权交叉熵损耗解释了显著像素和非显著像素之间的数据不平衡:
其中i∈ΩI,ΩI是图像I的格域。S表示R和S i∈S.β的显著性估计,它指的是地面真值G中显著像素的比率。利用方程5中的损失函数和显著边缘检测模块F,读出网络R学习利用显式ed来优化显著目标估计。GE信息。
由于神经网络的层次性,我们在模型中引入了紧密连接[14],以利用来自不同层的信息,提高表示能力。通过考虑所有多层显著性估计{S1,在第层中的显著性特征Y得到增强。以及边缘信息{E1,E 1}来自所有前面的1层:
其中,H表示一个小型网络,该网络对来自所有先前层的附加输入进行上采样和连接。F、R、H的详细结构可以在_3.3中找到。
讨论。为了保留更多的边界信息,我们添加了一个显著边缘检测模块F,它特别关注于在地面真值边缘图P的监督下分割显著对象边界。然后利用显著性特征Y和来自F的显式显著边缘信息,学习用于检测显著对象的读出网络R。进一步引入密集连接,以通过重用来自其他层的信息来提取表示能力。
具体的网络体系结构
骨干网。骨干网络是由VGG-16[29]模型构建的,该模型以其优雅和简单而著称,并且被广泛用于显著性模型。采用VGG-16的前五个卷积块。如图6所示,为了保留更多的空间信息,我们省略了最后一个池层(池5)。
金字塔注意模块。让{X 5,X 4,X 3,X 2,X 1}表示五个conv块的最后conv层的特征:conv1-2,conv2-2,conv3-3,conv4-3和conv5-3。对于每个X,我们首先将X'下采样到多个级别。对于标度n,注意模块定义为三个连续的操作:BN_Conv(1×1,1)RELU,其中最小注意映射被设置为14×14。应用上采样操作将注意力映射{1n}n在所有尺度上的大小调整为其原始大小。然后我们得到增强显著性表示Y到等式3。
边缘检测模块。边缘检测模块F定义为:BN_Conv(3×3,64)RELU_Conv(1×1,1)sigmoid。显著性读出函数R被构造为:BN_Conv(3×3,128)RELU_BN_Conv(3×3,64)RELU_Conv(1×1,1)sigmoid。对于第l层,采用一组上采样操作(H’),以便以当前特征分辨率放大来自所有前层的所有显著目标估计和显著边缘信息。然后,通过等式7更新显著性表示Y。接下来,采用边缘检测模块F和显著性读出函数R来生成相应的显著性图S。
以conv3-3层为例。给定输入图像I∈R 224×224×3,首先将conv4-3和conv5-3层的显著性图S 2、S 1和边缘图E 2、E 1上采样到当前空间分辨率56×56中。然后馈入H 3,并相应地更新特征Y 3。应用边缘检测模块F 3和显著性读出函数R 3,得到显著性映射S 3∈[0,1]56×56。这样,我们分别从conv1-2、conv2-2、conv3-3、conv4-3和conv5-3得到5个显著图{S 5、S 4、S 3、S 2、S 1},其中S 5∈[0,1]224×224是最终的、最准确的显著性估计。
整体损失。所有的训练图像{I k}K k=1都被调整到固定维数224×224×3。显著边界映射P k∈{0,1}224×224由相应的地面真值显著目标映射G k∈{0,1}224×224生成,并扩展为三个像素半径。考虑到所有五边输出,训练图像I k的总体训练损失是:
利用层次损失函数,PAGE-Net中的五个中间层可以直接从损失函数中获取梯度,从而实现隐式深度监督[17]。
实现细节。PAGE-Net在Keras.遵循[46,18,33]中的训练协议,我们使用THUS10K[9]进行训练,该THUS10K[9]包含10000幅带有逐像素注释的图像。在训练阶段,学习率被设置为0.0001,并且每两个周期降低10倍。在每次训练迭代中,我们使用10张图像的小批量。使用Nvidia TITAN X GPU,整个培训过程需要7个小时。
由于本模型不需要任何预处理或后处理,因此推理过程只需要0.04s就可以处理224×224大小的图像。这使得它比大多数基于深度学习的竞争者更快(参见_4.1了解详细的比较)。
实验
我们在六个流行的基准上进行了广泛的实验:ECCSD[41]、DUT-OMRON[42]、HKU-IS[19]、PASCAL-S[23]、SOD[28]和DUTS-TE[32],它们都是公开可用的,并且都用像素级的基本真值进行定量评估。在评价方面,我们采用了三种广泛使用的度量,即精确回忆曲线(PR)、F度量和平均绝对误差(MAE)。
性能比较
我们将所提出的PAGE-Net与19个最近的基于深度学习的替代方案进行比较:MDF[19]、LEGS[31]、DS[22]、DCL[20]、ELD[18]、MC[49]、RFCN[33]、DHS[24]、HEDS[12]、KSR[35]、NLDF[27]、DLS[13]、AMU[46]、UCF[47]、SRM[34]、FSN[8]、PAGR[48]、RAS[7]和C2S[21]。我们使用具有推荐参数设置的实现或者由作者共享的显著性映射。为了进行公平的比较,我们排除了其他基于ResNet的模型。由于完全连接的条件随机场(CRF)在一些方法[20,12]中被用作后处理,因此我们进一步提供了使用CRF的基线PAGE-Net+CRF。
定量评价。所有方法的精确召回曲线在图7中给出。由于空间有限,我们只在四个数据集上显示结果。正如所看到的,我们的PAGE-Net在所有数据集上的性能都优于它的同行,令人信服地证明了该方法的有效性。我们还将我们的方法与当前最先进的模型在F-度量和MAE评分方面进行比较。从表1中可以明显看出,PAGE-Net在度量上的所有数据集上都取得了优异的结果。特别地,对于DUT-OMRON数据集(0.770vs 0.758),PAGE-Net显示了与第二个最佳方法RAS相比显著改进的F度量,这是最具挑战性的基准之一。这清楚地说明了PAGE-Net在复杂场景中的优越性能。
定性评价。图8显示了我们与其他五个表现最好的竞争者的结果的视觉比较。为了更好的可视化,我们强调每个图像组的主要困难。我们发现PAGE-Net在各种具有挑战性的场景中表现良好,例如,对于大的突出对象(第一行)、对象与背景之间的低对比度(第二行)、杂乱的背景(第四行)和多个断开连接的对象(最后一行)。此外,我们观察到,由于使用了显著边缘检测模块,我们的方法能够很好地捕获显著边界。
运行时比较。我们还报告了表2中几种深度显著性方法的运行时间。这些评估是在具有i7 CPU和Titan-X GPU的机器上进行的。PAGE-Net比其他大多数方法更快,达到了25FPS的实时速度。
消融研究
在本节中,我们将分析每个组件对模型整体性能的贡献。我们使用ECCSD[41]和DUT-OMRON[42]数据集进行实验。结果总结在表3中。
多尺度注意。为了验证我们的多尺度注意结构(3.1)的有效性,我们比较了三种变体:w/o注意、w/单尺度和w/o同一性映射。基线w/o注意力是指在没有任何注意力模块的情况下,通过重新训练PAGE-Net而获得的结果。基线w/单标度对应于用单标度注意模块获得的结果(方程3中N=1)。对于w/o身份映射,我们在没有身份映射的情况下重新训练注意力模块(方程2)。如表3所示,与没有注意模块或使用单尺度注意的网络相比,具有多尺度注意的网络获得更好的性能。这证实了注意模块从多尺度信息中受益。这些结果还表明,标识映射还可以提高性能。在图3(f)和(g)中可以看到PAGE-Net的w/和w/o注意模块的结果之间的视觉比较。
突出边缘信息。接下来,我们研究了显著目标边缘信息(3.2)的影响。通过禁用显著边缘检测模块来获得基线w/o显著边缘。当使用MAE时,我们观察到性能下降(ECCSD:0.042_0.054,DUT-OMRON:0.066_0.074)。这表明,显著边缘信息确实改善了显著对象分割。为了更深入地了解显著边缘信息的重要性,我们在用两种不同的边缘检测器:HED[39]和canny滤波器代替显著边缘检测模块之后,再次测试该模型。我们还观察到在两种情况下性能都有轻微下降。这表明使用显著边缘信息对于获得更好的性能是至关重要的。这是因为突出的边缘为检测和分割突出的对象提供了信息提示,而不是简单地确定颜色或强度的变化。
侧输出。最后,我们研究了层次结构对自上而下的显著性推断的影响(图2(b)和_3.3)。我们介绍了与PAGE-Net中间层的输出相对应的四个附加基线:conv2-output、conv3-output、conv4-output和conv5-output。注意,PAGE-Net的最终预测可以看作来自conv1层的输出。我们发现,通过添加来自下层的更多细节,显著性结果逐渐优化。
结论
本文提出了一种新的深度显著性模型PAGE-Net,用于显著性物体的检测。PAGE-Net具有两个基本组件:金字塔关注模块和显著边缘检测模块。前者利用多尺度信息扩展常规注意机制,提高显著性表征,使训练更有效,表现更好。后者着重于检测显著边缘信息,这些信息可用于锐化显著对象段。对六个著名的基准数据集的广泛实验评估证明,上述贡献显著提高了显著性检测性能。最后,该模型在GPU上运行速度快,推理速度快。
Edit Review
Paper ID
1005
Paper Title
PAGE-Net: Salient Object Detection with Pyramid Attention and Salient Edge
REVIEW QUESTIONS
1. Summary. In 3-5 sentences, describe the key ideas and experiments and their significance.
(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)
This paper proposes a new method, called PAGE-Net, for detecting salient
objects in images using convolutional neural networks.
2. What aspects of the paper are particularly good?
(visible to author during feedback, visible to author after notification,
visible to other reviewer, visible to meta-reviewer)
3. Strengths. Consider the significance of key ideas, experimental validation, writing quality. Explain clearly why these aspects of the paper are valuable.
(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)
4. What aspects of the paper most need improvement?
(visible to author during feedback, visible to author after notification,visible to other reviewer, visible to meta-reviewer)
5. Weaknesses. Consider significance of key ideas, experiments, writing quality. Clearly explain why these are weak aspects of the paper, e.g. why a specific prior work has already demonstrated the key contributions, or why the experiments are insufficient to validate the claims.
(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)
6. Paper rating
(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)
7. Justification of rating. What are the most important factors in your rating?
(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)
8. Comments to author. Include any comments that may be useful for revision but should not be considered in the paper decision.
(only visible to author) (visible to author during feedback, visible to author after notification)
9. Comments to AC, such as concerns about plagiarism, other ethical violations, or your ability to evaluate the paper.
(only visible to area chairs) (visible to meta-reviewer)
10. Who wrote this review (if not you)?
(visible to AC only) (visible to meta-reviewer)
网友评论