DIM
3. 新的抠图数据集
抠图的基准数据集alphamatting.com[25]成功地加快了抠图领域的研究。然而,因为在制作真值时要精细控制,该数据集仅包含27张训练图像和8张测试图像,这不仅不足以训练神经网络,而且其多样性也非常匮乏:它仅仅包括小规模的实验室场景下的静态物体。
铺垫基准alphamatting.com[25]在加快研究铺垫的步伐方面取得了巨大成功。然而,由于获得地面真实图像所需的精心控制的设置,数据集仅包含27个训练图像和8个测试图像。这不仅不足以训练神经网络的图像,而且其多样性也受到严重限制,仅限于带有静态对象的小规模实验室场景。
为了训练我们的matting网络,我们通过将真实图像中的对象合成到新的背景上来创建一个更大的数据集。我们可以在简单或简单的背景下找到图像(图2a),包括来自[25]的27个训练图像和来自[26]视频的每五帧。使用Photo shop,我们小心地手工创建一个alpha哑光(图2b)和纯前景颜色(图2c)。因为这些物体的背景很简单,所以我们可以为它们绘制精确的蒙版。然后,我们将这些视为基本事实,对于每个阿尔法哑光和前景图像,我们随机抽取MS COCO[23]和Pascal VOC[11]中的N个背景图像,并将对象合成到这些背景图像上。
我们用上述方法创建训练和测试数据集。我们的训练数据集有493个独特的前地面物体和49300个图像(N=100),而我们的测试数据集有50个独特的对象和1000个图像(N=20)。每个图像的trimap从其基本真实alpha蒙版随机展开。与以前的matting数据集相比,我们的新数据集有几个优点。1) 它有更多独特的对象,涵盖了各种各样的matting情况,如头发、毛发、半透明等等。2)许多合成图像具有相似的前景和背景颜色以及复杂的背景纹理,使我们的数据集更具挑战性和实用性。
早期的一个问题是,由于图像的合成特性,该过程是否会产生偏差,从而使网络能够学习区分前景和背景光照、噪声水平等的差异。然而,我们通过实验发现,与先前的方法相比,我们在自然图像上取得了远远优于以往方法的结果(见第5.3节)。
5
在本节中,我们将在3个数据集上评估我们的方法。1) 我们评估alphamatting.comdataset[25],这是现有的图像matting方法的基准。它包括8个测试图像,每个都有3个不同的裁剪,即“小”、“大”和“用户”。2) 由于alphamatting.com数据集,我们提出了组合1k测试集。我们基于构图的数据集包括1000幅图像和50个独特的前场。此数据集具有更广泛的对象类型和背景场景。3) 为了测量我们在自然图像上的性能,我们还收集了第三个数据集,包括31个自然图像。自然图像涵盖了广泛的共同的铺垫前景,如人,动物等。
5.1条。这个alphamatting.com数据集
与其他方法相比,我们的方法在alphamatting.com基准。具体来说,我们的方法在SAD指标方面排名第一。我们的方法也有最小的SAD误差5个图像与所有3个微调(图5)。此外,我们的方法在均方误差和梯度指标方面排名第二。总的来说,我们的方法是这个数据集中性能最好的方法之一。
我们成功的一个关键原因是我们的网络学习结构和语义的能力,这对于在背景场景复杂或背景和前景颜色相似的情况下准确估计阿尔法哑光非常重要。例如,在图6中,“Troll”示例的头发和桥的颜色非常相似,而“Doll”示例具有很强的纹理背景。以前的方法(从第3列到第6列)的最佳结果在这些困难区域都有非常明显的错误。相比之下,我们的方法直接学习对象结构和图像上下文。因此,我们的方法不仅避免了以往方法的类似错误,而且预测了更多的细节。值得注意的是,尽管DCNN matting[8]也是一种基于深度学习的方法,但它在小的局部区域内学习了先前的铺垫方法的非线性组合。因此,该方法无法真正理解语义,因此与以往基于非深度学习的方法具有相同的局限性。
5.2条。Composition-1k测试数据集
我们在Composition-1k测试数据集上进一步评估了7种性能最好的先验方法和我们方法的每个组件。对于所有先前的方法,都使用作者提供的代码。我们方法的不同变体包括:消光编码器-解码器网络1)仅具有α预测损失,2)同时具有α预测损失和合成损失,消光编码器-解码器网络3)由引导滤波器进行后处理[17]和4)由消光细化网络后处理。
在[25]提出的SAD、MSE、梯度和连接性误差下的定量结果如表1所示。显然,我们方法的所有变体都比其他方法有更好的结果。主要原因仍然是我们的深层模型能够理解图像的复杂上下文,而其他方法则不能。通过比较我们方法的变体,我们也可以验证我们方法中每个组件的有效性:1)合成损失有助于我们的模型学习位置操作,从而获得更好的结果;2)通过与先前的边缘保持滤波器相结合,我们的matting编解码器网络的结果可以得到改善(例如,引导滤波器[17])以及我们的消光细化网络。但后者在视觉和定量上都有更明显的改善,因为它是直接用我们的编解码网络的输出训练出来的。
我们在图7中测试了我们的方法对trimap布局的敏感性。我们对数据集的一个子集进行评估,该数据集包括为每个唯一对象随机选择的一个图像,总共有50个图像。为了形成trimap,我们将每幅图像的地面真值α放大d像素,以增加d值。在特定参数下的SAD误差在所有图像上取平均值。图7显示了参数sd∈[1,4,7,10,13,16,19]下所有方法的结果。很明显,我们的方法有一个低和稳定的错误率随着值的增加而增加,而其他方法的错误率迅速增加。我们的良好表现源于我们的培训策略以及对图像背景的良好理解。
图8显示了一些视觉示例,以证明我们的方法在不同的消光情况下的良好性能,例如头发、洞和半透明。此外,我们的方法还可以处理没有纯前地面像素的对象,如图8的最后一个示例所示。由于以前的基于采样和基于传播的方法必须利用已知的前景和背景像素,因此它们无法处理这种情况,而我们的方法可以直接从数据中学习细节的外观。
5.3条。真实图像数据集
抠图方法应该很好地推广到现实世界的图像。为了验证我们的方法和其他方法在真实图像上的性能,我们对真实图像数据集进行了用户研究。这些图像包括从互联网上提取的图像以及ICCV 2013图像处理教程提供的图像。
因为我们的受试者可能不熟悉阿尔法蒙版,所以我们会评估构图的结果。对于每种方法,计算出的alpha哑光用于将测试图像混合到黑色背景和白色背景上。对于用户测试,我们向用户展示随机选择的两种方法的图像和两种合成结果,并询问哪种结果更准确、更真实,尤其是在精细细节区域(例如头发、对象边缘和半透明区域)。为了避免评价偏差,我们对亚马逊机械土耳其人进行了用户研究。结果,共有392个用户参与了用户研究,每个方法对一幅图像由5到6个唯一用户进行评价。
两两比较的结果显示在Tbl.2中,每列显示一种方法优于其他方法。例如,在83.7%的情况下,用户更喜欢我们的结果,而不是[13]。值得注意的是,五分之四的用户喜欢我们的方法而不是以前的方法,这很好地证明了我们的方法确实可以产生更好的视觉效果。一些可视结果见图9。
同样值得注意的是,与其他两个实验相比,本次测试中其他方法的排名有所不同。例如,闭式Matting[22]是alphamatting.com在我们这里比较的方法中,对于用户来说,它比所有其他方法都好,除了我们自己的方法和[28]。另一方面,DCNN[8]是alphamatting.com,在实际图像上只优于两种方法。目前尚不清楚这是否是由于方法过度拟合alphamatting.com数据集或标准误差量度是否无法准确测量人类对阿尔法抠图结果的感性判断。
6结论
为了将其推广到自然图像中,抠图算法必须超越使用颜色作为主要线索,并利用更多的结构和语义特征。在这项工作中,我们展示了一个神经网络能够捕捉到这样的高阶特征,并应用它们来计算改进的抠图结果。实验结果表明,该方法不仅在标准数据集上优于已有的方法,而且对真实图像的泛化能力也显著提高。
网友评论