在现代计算机视觉中,图像通常表示为具有一定步幅的固定均匀网格,并通过深层卷积神经网络进行处理。我们认为将网格变形以更好地与高频图像内容对齐是一种更有效的策略。 我们介绍了可变形网格(DefGrid),这是一种可学习的神经网络模块,可预测二维三角形网格的顶点集或位置,以使变形网格的边缘与图像边界对齐。
我们在各种用例中展示了DefGrid,即通过将其作为模块插入各种处理级别。 我们将DefGrid用作端到端可学习的几何降采样层,该层取代了标准池化方法,可在将图像馈入深层CNN时降低特征分辨率。 与在统一网格上使用CNN进行语义分割任务相比,我们在相同的网格分辨率下显示出显着改善的结果。 我们还在输出层使用DefGrid来完成对象蒙版注释的任务,并表明在我们预测的多边形网格上对对象边界进行推理可以比现有的基于像素和基于曲线的方法产生更准确的结果。 我们最后展示了DefGrid作为用于无监督图像分区的独立模块,显示了优于现有方法的性能。
1 INTRODUCTION
在现代计算机视觉方法中,图像被视为具有固定步幅的固定均匀网格,并通过深度卷积神经网络进行处理。为了提高效率,通常会以较低的分辨率处理非常高分辨率的图像,从而使图像本质上模糊并进行二次采样。当馈送到神经网络时,每个像素因此包含来自前景和背景的原始信号混合信息的模糊版本,可能导致网络对对象及其上下文的敏感度和依赖性更高。 相反,在许多传统的计算机视觉流水线中,高分辨率图像被分成符合图像边界的一小组较小的超像素,从而导致在下游任务中进行更有效的推理。 我们遵循这种思路,认为使网格变形以更好地与输入中的高频信息内容对齐是一种更有效的表示策略。从概念上讲,这类似于超像素,但是符合具有几何约束的常规拓扑,因此仍然很容易与深度卷积网络一起用于下游任务。
此外,诸如对象蒙版批注之类的任务自然要求输出为多边形的形式,并带有可管理数量的控制点,人工注释者可以编辑这些控制点。 先前的工作要么将输出参数化为带有固定数量的控制点的闭合曲线[27],要么执行了像素标记,然后执行了(不可微分)多边形化步骤[26,39,29]。在前者中,预测曲线通常更好地利用形状先验来导致“表现良好”的预测,但是,输出固有地受限于其能够表示的形状的种类和复杂性。相反,逐像素方法可以表示 但是,任意类通常需要较大的输入/输出分辨率才能在对象边界周围产生准确的标记。我们认为,在与图像边界很好对齐的低分辨率多边形网格上进行推理可以结合两种方法的优点。
我们介绍了可变形网格(DefGrid),这是一种神经网络模块,用于表示具有二维三角形网格的图像。 网格的基本元素是一个三角形单元,其顶点将三角形放置在图像平面中。 DefGrid用统一的网格初始化,并利用神经网络预测三角形顶点的位置,以使变形网格的边缘和顶点与图像边界对齐(图1)。 我们提出了一些精心设计的损失函数来鼓励这种行为。 由于变形操作的可区分性,DefGrid可以使用下游神经网络作为即插即用模块在各种深度处理级别上进行端到端训练。 我们在各种用例中展示DefGrid:作为可学习的几何图像降采样层,以显着降低的网格分辨率来组织高精度语义分割。 此外,当用于对输出进行参数化时,我们证明它可以为交互式对象蒙版注释的任务带来更有效,更准确的结果。 我们的DefGrid也可以用作独立模块进行无监督的图像分区,并且与现有的基于超像素的方法相比,我们显示出更高的性能。
Fig.1 DefGrid是一个神经模块,使用三角形网格表示一副图像。 DefGrid均匀初始化网格,变形网格的顶点,以使网格的边缘与图像边界对齐,同时保持拓扑固定。
网友评论