Mask Guided Matting

作者: Valar_Morghulis | 来源:发表于2022-10-31 12:23 被阅读0次

Mask Guided Matting
InstMatt：人像实例抠图
MatteFormer
RobustVideoMatting
口译笔记📒
SGHM：语义分割引导的人体抠图
SampleNet Matting解读
Highly Efficient Natural Image M
shared matting原理
react 实用库

Mask Guided Matting via Progressive Refinement Network

原文：https://arxiv.org/abs/2012.06722

开源：https://github.com/yucornetto/MGMatting （>=235星）

CVPR2021

发布在arxiv的日期：2020.12

摘要：我们提出了Mask Guided（MG）Matting，这是一种以普通粗糙掩模为指导的鲁棒抠图框架。MG Matting利用网络（PRN）设计，该设计鼓励Matting模型提供自指导，以通过解码过程逐步细化不确定区域。训练中还引入了一系列指导掩模扰动操作，以进一步增强其对外部指导的鲁棒性。我们表明，PRN可以推广到未见的指导掩模类型，如trimap和低质量alpha抠图，使其适用于各种应用流程。此外，我们重新讨论了抠图的前景颜色预测问题，并提出了一个令人惊讶的简单改进来解决数据集问题。对真实和合成基准的评估表明，MG Matting使用各种类型的指导输入实现了最先进的性能。

图1：MG和其他抠图方法的可视化比较，包括Photoshop中的商业抠图方法。指导输入（详见第5节）位于每个图像的左下角。请注意，BSHM[27]具有内部分割预测网络，因此不采用外部掩码。放大看最好。

1 引言

图像抠图是一个基本的计算机视觉问题，其目的是预测alpha抠图以精确地裁剪图像区域。它在图像和视频编辑方面有许多应用[39，41，21]。大多数以前的抠图方法需要一个注释良好的trimap作为辅助指导输入[39]，它明确定义了前景和背景的区域以及抠图方法要解决的未知部分。尽管这样的注释使问题更容易处理，但它可能会给用户带来相当大的负担，并限制了这些方法在许多非交互式应用程序中的有用性。

最近，研究人员开始研究无trimap环境下的抠图问题。一个方向是摆脱任何外部指导，并希望matting模型能够通过对大规模数据集的端到端训练来捕获语义和细节[45，31]。然而，当在复杂的真实世界图像上测试时，由于缺乏语义指导，这些方法面临着泛化的挑战。另一条工作线研究了trimap指导的替代方案，从而降低了对人类输入的要求[27，32，19，13]。例如，[19，13]提出了自动trimap生成技术，而[32]将背景图像作为额外输入。然而，这些方法通常需要一种非常具体的指导类型，因此当指导输入可能具有不同的特征或形式时，它们就变得不那么吸引人了。

在这项工作中，我们介绍了一种以普通粗掩模为指导的掩模指导（MG）蒙版方法。MG Matting对指导输入非常鲁棒，并且可以使用各种类型的掩模指导（如trimap、粗糙的二元分割掩模或低质量的软alpha掩模）获得高质量的抠图结果。为了实现对指导输入的这种鲁棒性，我们提出了一种渐进细化网络（PRN）模块，该模块学习提供自指导，以通过解码过程逐步细化不确定的抠图区域。为了进一步增强我们的方法对外部指导的鲁棒性，我们还开发了一系列指导掩码扰动操作，包括随机二值化、随机形态学操作，以及更强的扰动CutMask，以模拟训练期间的不同指导输入。

除了alpha抠图预测，我们还重新讨论了抠图的前景颜色预测问题。如果不准确地恢复透明区域中的前景颜色，合成图像将受到边缘问题的影响。我们注意到，由于标签噪声和有限的多样性，广泛使用的数据集[41]中的前景颜色标签对于模型训练来说是次优的。作为一种简单而有效的解决方案，我们提出了随机alpha混合（ Random Alpha Blending，RAB）来从随机的alpha蒙版和图像中生成合成训练数据。我们表明，这种简单的方法可以提高前景颜色预测的准确性，而不需要额外的手动注释。因此，结合所提出的PRN，MG Matting能够生成更直观的合成结果。

我们的贡献可以总结如下：

• 我们提出了Mask Guided Matting，这是一种通用的抠图框架，可与各种质量甚至形式的指导抠图一起工作，并在合成数据集和真实数据集上实现了新的性能评估。

• 我们引入了渐进细化网络（PRN）以及指导扰动训练流程，作为学习鲁棒抠图模型的解决方案。

• 我们研究了抠图的前景颜色预测问题，并提出了使用随机alpha混合的简单改进方法。

此外，我们收集并发布了真实图像的高质量抠图基准数据集，以评估抠图模型的真实性能。

2 相关工作

基于Trimap的图像抠图。 大多数抠图方法都需要一个trimap作为附加输入，它将图像分成前景、背景和未知区域。传统方法通常基于采样或传播。基于采样的方法[11，7，15，33，38]通过对确定的前景/背景区域中的像素进行采样来估计前景/背景颜色统计，以解决未知区域中的alpha抠图。基于传播的方法[6，20，21，22，35，16]，也称为基于亲和力的方法，通过将alpha值从前景和背景像素传播到未知区域来估计alpha蒙版。

最近，深度学习方法在许多领域被证明是成功的，包括分类[17，36，25，23]、检测[14，2，3]和分割[5，42]。它在图像抠图方面也取得了巨大的成功。[41]使用合成到各种背景图像的注释蒙版创建了一个蒙版数据集，并在其上训练了一个深度网络。后来，[30]引入了一个生成对抗框架来改进结果。[37]建议将基于采样的方法与深度学习相结合。[29]引入了一种新的索引指导的上采样和 unpooling 操作，以更好地保留预测中的细节。[18] 提出了一种双编码器双解码器结构来同时估计前景和alpha。[24]通过上下文关注模块进一步提高性能。

无Trimap图像蒙版。 值得注意的是，也有一些试验[1，34]来摆脱trimap来预测alpha抠图。[45]提出了一种由分割网络和融合网络组成的框架，其中输入仅为单个RGB图像。后来，[27]引入了一个无trimap框架，该框架由掩模预测网络、质量统一网络和人像抠图细化网络组成。注意力模块进一步提高了无trimap的性能[31]。然而，在性能方面，这些无trimap方法与基于trimap的方法仍有一些差距。另一个方向是使用另一种指导来取代trimap。[32]引入了一个框架，将背景图像与其他潜在先验（例如，分割掩码、运动线索）一起作为附加输入。它显示出巨大的潜力，并且可以获得与基于trimap的最新方法相当的性能。

前景颜色提取（decontamination，本意“去杂质”）。 许多传统的抠图方法[11，21]提出预测alpha抠图和前景颜色以提取前景对象。然而，最近才将前景预测纳入深度学习框架[18]。随后，[32]还预测前景颜色以减少伪影，从而获得更好的合成结果。然而，这些方法主要添加了前景解码器，并直接颜色标签中学习[41]，这只提供了有限的训练样本，更严重的是，颜色标签可能不准确且有噪声（见图3）。[10] 建议使用Closed-form Matting[21]来获得更平滑的颜色标签。

我们的方法与上述算法的不同之处在于以下几点：

1）我们的模型在更一般的环境下工作，在这种环境下，只需要一个易于获得的粗糙掩模，无论是用户定义的还是模型预测的，都可以作为指导。它可以处理不同的质量，甚至各种类型的指导作为输入。因此，根据可用的指导，它可以用作基于trimap或无trimap的模型。我们的模型还可以利用更强的指导来实现更精细的细节。

2）我们的方法也可以预测前景颜色。与[18]不同，其中前景预测是直接从颜色标签中学习的，我们注意到有限的训练数据和不准确的人类标签会导致不期望的结果，尤其是在边界区域。相反，我们建议使用随机Alpha混合来避免标签中的偏差，这不仅引入了更多样的训练样本，而且避免了边界区域中不准确的颜色标签定位。

3 MG Matting

图像抠图的问题可以表述为：

$\mathbf{I} = \mathbf{\alpha}\mathbf{F} + (1-\mathbf{\alpha})\mathbf{B}, \mathbf{\alpha}\in [0,1]$

其中 $\mathbf{I}$ 、 $\mathbf{F}$ 、 $\mathbf{B}$ 和 $\mathbf{\alpha}$ 分别表示图像颜色、前景颜色、背景颜色和alpha图。正如我所观察到的，这是一个非常不适定的问题。为了解决抠图问题，大多数方法都需要一个trimap输入，它标记前景区域（即 $\mathbf{\alpha} = 1$ ）、背景区域（即 $\mathbf{\alpha} = 0$ ）和未知部分。在实践中，trimap输入可能包含各种级别的噪声和误差，从而使抠图结果不一致。

我们通过提出一种掩模指导的抠图方法来放松对trimap的强烈假设。掩模指导，例如预测的分割掩模或粗略的手动选择，仅提供前景区域的粗略空间先验。因此，我们的MG Matting方法需要对输入掩码进行更高层次的语义理解，以便能够鲁棒地检测前景/背景区域和软透明部分。同时，我们的模型必须捕获图像的低层次模式，如边缘和纹理，以产生目标抠图的精细细节。协调高级和低级特征学习是我们MG Matting方法设计的关键。

为此，我们引入了渐进细化网络（PRN），它提供了从粗到细的自指导，以在解码过程中逐步细化不确定区域。在下文中，我们介绍了PRN的细节、训练公式和一些数据增强技术，以增强模型的鲁棒性。

图2：提出的PRN。该网络以多种分辨率预测alpha图，而较低分辨率的alpha图提供了在下一次预测中要细化的不确定区域的指导。Figure 2: The proposed PRN. The network predicts alpha matte at multiple resolutions, while the one at lower-resolution provides guidance about uncertain region to be refined in the next prediction.

3.1 渐进式细化网络 Progressive Refinement Network

PRN的概述如图2所示。我们的PRN的结构遵循具有跳连的流行编码器-解码器网络。我们的网络将图像和粗糙掩模作为输入并输出抠图。在解码过程中，PRN在每个特征级别都有一个侧抠图输出。具有深度监督的侧输出已被证明在不同尺度上改进了特征学习[40]。然而，与[40]不同的是，我们发现线性融合侧输出对于抠图问题并不理想（详见表4）。这是因为更靠近对象边界的图像区域需要较低级别的特征来描绘前景，而识别内部对象区域需要较高级别的指导。

为了解决这个问题，我们在每个特征级别引入了渐进细化模块（PRM），以选择性地融合前一级别和当前级别的抠图输出。具体地说，对于当前级别 $l$ ，我们从抠图输出 $α_{l-1}$ 生成自指导掩模 $g_l$ ，使用以下函数：

$α_{l-1}$ 首先上采样，以匹配当前级的原始抠图输出 $α’_l$ 的尺寸，然后生成自指导掩模 $g_l$ 。自指导掩膜将透明区域（即 $0<\alpha<1$ ）定义为未知，并替换 $α_{l-1}$ 的未知区域为当前级原始输出 $α’_l$ ，以获得当前级更新输出 $α_l$ ：

$\alpha_{l} = \alpha_{l}’g_{l}+\alpha_{l-1}(1-g_{l})$ （3）

这样，先前级的更高级特征的置信度高的区域被保留，当前级只需要专注于细化不确定区域。

在实践中，我们分别在步幅8、4和1的三个特征级上获得alpha抠图侧输出(alpha matte side outputs)（见图2），并稍微膨胀(dilate)自指导掩模以获得更鲁棒的自指导。1/8图像大小的初始基础抠图将被逐步上采样和细化，并且不确定区域也将在解码过程中通过所提出的PRM逐渐缩小。整个网络端到端训练，以在多个特征级自动平衡细化重点。这种自指导的细化也使得模型对外部掩模指导的依赖性降低，从而获得更鲁棒的抠图性能。

训练计划。 对于损失函数，我们采用 $l_1$ 回归损失、合成损失[41]、拉普拉斯损失[18]，并分别表示为 $\mathcal{L}_{l1}$ 、 $\mathcal{L}_{comp}$ 、 $\mathcal{L}_{lap}$ 。我们用 $\hat{α}$ 表示真值， $α$ 表示预测值。总损失函数是这三项的总和：

$\mathcal{L}(\hat{\alpha}, \alpha) = \mathcal{L}_{l1}(\hat{\alpha}, \alpha) + \mathcal{L}_{comp}(\hat{\alpha}, \alpha) + \mathcal{L}_{lap}(\hat{\alpha}, \alpha)$ （4）

损失应用于网络的每个输出头。为了使训练更专注于未知区域，我们进一步用 $g_l$ 调节损失。最终损失函数可以表示为：

$\mathcal{L}_{final} = \sum_{l}w_l\mathcal{L}(\hat{\alpha_{l}}\cdot g_{l}, \alpha_{l} \cdot g_{l})$ （5）

其中 $w_l$ 是分配给不同级输出的损失权重。我们在实验中使用 $w_0:w_1:w_2=1:2:3$ 。 $g_l$ 由 $\alpha_{l-1}$ 根据公式（2）生成， $g_0$ 是一个值全为1的掩码，以便可以在整个图像上监督基本级输出，以为下一级输出提供更全面的语义指导。

对于数据增强，我们遵循[24]中提出的训练协议，包括随机合成两个前景对象图像、使用随机插值来随机调整图像大小、随机仿射变换、颜色抖动。我们随机裁剪512×512个以未知区域为中心的patches进行训练。每个patch被合成到来自MS COCO数据集的随机背景图像[26]。

指导扰动 Guidance Perturbation。 为了确保我们的模型能够适应来自不同来源和具有不同质量的指导掩模，我们提出了一系列指导扰动，以在训练期间从真值alpha蒙版生成指导掩模。给定真值alpha蒙版，我们首先使用从0到1均匀采样的随机阈值对其进行二值化。然后，掩膜被腐蚀和膨胀，先腐蚀还是先膨胀是随机的，腐蚀膨胀核尺寸是1到30的随机数。

此外，我们提供了名为CutMask的更强的指导扰动，以进一步提高模型的鲁棒性。受成功的自然图像增强CutMix[43]的启发，我们随机选择了一个从1/4到1/2图像大小的补丁。然后，选择指导的两个随机patch，其中一个patch的内容将覆盖另一个patch。这种更强的扰动提供了额外的局部指导掩模损坏，使模型对外部指导掩模中的语义噪声更加鲁棒。(we randomly select a patch size ranging from 1/4 to 1/2 image size. Then, two random patches of the guidance are selected and the content of one patch will overwrite another. This stronger perturbation provides additional localized guidance mask corruption, making the model more robust to semantic noises in external guidance masks.)

除了扰动外部指导掩模之外，我们注意到扰动内部自指导掩模对于提高鲁棒性也非常重要。因此，我们随机膨胀(dilate)自指导掩模以纳入更多的方差。具体是，在训练期间，来自输出步幅8的自指导掩码被从[1，30]随机采样的 $K_1$ 膨胀，来自输出步幅4的自指导掩膜被从[1，15]随机采样的 $K_2$ 膨胀。测试时，固定 $K_1$ 为15， $K_2$ 为7。

3.2 前景颜色估计

如公式（1）所示，前景对象提取中，alpha图和前景颜色都是需要解决的问题。然而，只有少数抠图方法学习预测前景颜色[18，32]，所有这些方法都使用流行的Composition-1k数据集[41]进行训练。

然而，Composition-1k数据集中存在一些问题。首先，该数据集仅包含431张带有抠图和前景颜色真值的前景图像，这对于训练前景颜色模型非常有限。此外，使用Photoshop[41]中的颜色 decontamination功能估计的前景颜色标签有时在边界区域附近有噪声且不准确（见图3）。这可能会在数据增强过程中在图像中引入颜色溢出和其他伪影，使学习变得不稳定。此外，仅在alpha值大于零的区域有标签，因此现有方法只能对前景区域应用监督[18]，导致未定义部分的不稳定行为。

图3：来自[41]的常用训练数据中的颜色标签有噪声且不准确，尤其是在边界部分附近。请注意，耳朵附近的头发会变得更粉红。彩色图放大看最好。 Figure 3: The color labels in the commonly used training data from [41] are noisy and inaccurate especially near the boundary part. Note that the hair near the ear falsely gets pinker. Best viewed in color and zoomed in.

为了解决这些问题，我们提出了一种简单而有效的方法，称为随机alpha混合（RAB），混合前景图像和背景图像来生成合成训练数据，混合使用随机选择的alpha蒙版。尽管合成图像可能在语义上没有意义，但它们可以在透明区域中提供准确且无偏见的前景颜色标签。随机alpha混合还可以显著地使训练数据更加多样，并改进前景颜色预测的泛化。此外，我们还注意到，RAB可以对所有图像应用损失监督，从而实现鲁棒合成所需的更平滑的预测。（见图4）

对于前景估计，我们使用基本的编码器-解码器网络训练一个单独的模型，该网络将图像和alpha蒙版作为输入。损失函数是 $l_1$ 回归损失、合成损失和拉普拉斯损失的总和。我们注意到，尽管可以训练单个模型同时用于预测alpha图和前景，但根据经验，这将降低抠图性能[18]，并且随机alpha混合将破坏抠图模型的语义线索。此外，将前景颜色预测与抠图分离使得颜色模型可以迁移到已经给出抠图的用例。

4 合成数据集实验

本节我们报告了在传统的合成数据设置下我们的方法的评估结果，其中测试图像是使用前景图像和真值抠图以及随机背景图像生成的。

评估指标。 我们遵循先前的方法，使用官方评估代码通过绝对差之和（SAD）、均方误差（MSE）、梯度（Grad）和连通性（Conn）误差评估结果[41]。

网络架构。 我们采用[24]中提出的带Atrous空间金字塔池（ASPP）[5]的ResNet34-UNet，作为PRN和颜色预测的主干。第一卷积层被调整为接收由RGB图像和外部指导输入组成的4通道输入。此外，alpha预测头（Conv-BN-ReLU-Conv）分别在输出步幅4和8处附接到特征以获得侧输出。

训练阶段。 为了与以前的深度图像抠图方法进行比较，我们使用Composition-1k数据集[41]训练我们的MG抠图模型，该数据集包含431个前景对象和用于训练的相应真值alpha抠图。使用ImageNet[8]预训练权重初始化网络。我们使用裁剪大小512，批量大小在4个GPU上共计40，Adam优化器，β1=0.5，β2=0.999。学习率初始化为1×10−3。训练持续10万次迭代，前5000次迭代时进行预热，余弦学习速率衰减[28，12]。我们还采用curriculum学习方式来帮助PRN训练。特别是，对于前5000次迭代，输出步幅4和1的预测将由真值alpha生成的指导掩码指导，而对于接下来的10000次迭代，指导将由自预测和真值alpha均匀随机生成。之后，每个alpha预测都应该完全依赖于它的自指导。前景颜色预测在完全相同的设置下进行训练，只是生成的训练样本由随机前景和alpha抠图合成。值得注意的是，使用RAB，我们可以在整个图像上添加前景颜色监督，而不是仅添加前景区域，这会产生更平滑和稳定的结果（见图4）。

Composition-1k测试。 测试集由50个独特的对象组成，这些对象与从Pascal VOC[9]中选择的20个背景图像合成，从而总共提供1000个测试样本。我们注意到，由于这些合成数据集使用PASCAL VOC图像，背景可能包含其他显著对象，显著性/分割模型可能不适用于获得合理的粗掩模。为了更好地将MG Matting与其他基于trimap的方法进行比较，我们在两种设置下测试了我们的模型：1）TrimapFG：我们采用trimap中的高置信度前景区域作为网络的粗指导掩模；2） Trimap：我们将Trimap归一化为[0,1]，未知像素为0.5，并使用此软掩模作为指导。我们遵循Composition-1k中的评估设置，该评估仅计算未知区域的值。

我们分别在表1和表3中总结了alpha结果和前景颜色结果。我们注意到，尽管我们的模型没有使用trimap进行训练，但它仍然在这些未见指导类型上显示出强大的鲁棒性和可迁移性。我们的模型大大超过了以前的最先进模型。考虑到trimap和trimapFG之间的差距，它的性能也保持一致。我们还注意到，我们的前景颜色预测不仅显著减少了误差，而且产生了更平滑的结果（见图4），这在alpha图可能有噪声的复杂现实场景中是理想的。

Distinction-646测试。 Distinction-646[31]是一个最新的合成抠图基准数据集，它改进了Composition-1k的多样性。它包含1000个测试样本，这些测试样本的生成方式与 Composition-1k类似。然而，该数据集在发布时没有官方的trimaps或其他类型的指导，因此很难与之前报告的结果进行比较。因此，我们主要将此基准用作测试台，以展示我们的方法如何细化另一种方法生成的alpha图。

我们测试了一些最先进的基于trimap的基线，它们是在Composition-1k上训练的。我们首先通过阈值化从真值alpha抠图生成trimap，并将未知区域用大小为20的核来膨胀。然后，我们使用这些基于trimap的方法来生成抠图结果。最后，我们使用这些预测的alpha抠图作为我们的MG抠图方法的指导，并生产精细的抠图。

如表2所示，使用MG Matting作为细化方法，可以持续改进其他最先进方法的结果。我们还在表2中显示了[31]报告的结果，以供参考。

消融研究。 为了验证PRN的设计和引入的指导扰动，我们进行了烧蚀研究，如表4所示。在这些实验中，Trimap被用作指导掩模。然而，我们并不假设指导类型是已知的，因此我们故意不使用它来对预测做后处理（后处理即根据trimap来替换已知的前景区域和背景区域）。相反，我们分别报告了在整个图像和未知区域上计算的两个分数，以更全面地评估我们方法的鲁棒性。

我们在表4中报告了不同变体的消融。基线是指没有任何附加的纯主干。将侧输出和深度监督添加到基线可以提高整个图像或未知区域的性能。我们还尝试使用两个卷积层来融合不同的输出。然而，线性融合侧输出可能不会导致更好的结果。相比之下，所提出的PRN可以更好地协调不同层次的语义细化和低级细节细化，从而获得一致的改进。我们还表明，CutMask扰动可以进一步提高性能和鲁棒性。

我们还验证了RAB的有效性。我们计算前景区域（即α>0）上前景颜色（ $\mathbf{F}$ ）的MSE和SAD。基线达到MSE=0.00623和SAD=82.30，而使用RAB时，性能提高到MSE=.00321和SAD=62.01。

5 真实世界人像数据集的实验

我们注意到，尽管合成数据集是公认的基准，并提供了足够的数据来训练一个好的模型，但在其上训练的模型是否足够鲁棒并能够在真实图像中产生可比的结果仍然是一个悬而未决的问题。例如，[18]发现，一些简单的数据增强（如重新JPEG和高斯模糊）可以避免合成数据集的一些缺点，并显著提高模型在真实世界图像上的性能，但代价是合成基准上的误差更高。这就引出了一个问题：合成抠图数据集的结果能否反映真实图像的性能？

因此，对真实世界图像的评估非常关键。然而，由于缺乏真实图像的高质量抠图基准数据集，大多数以前的模型主要通过视觉或用户研究来比较它们的抠图结果。为了更好地评估真实世界场景中的抠图方法，我们收集了一个真实世界图像抠图数据集，该数据集由637张不同的高分辨率图像组成，并由专家进行了抠图注释。我们数据集中的图像具有不同的图像质量和不同姿势的主题。此外，由于数据集主要包含主体易于预测的实体对象，我们还标记了覆盖头发区域和其他软组织的细节掩码，这表明图像最重要的细节位于何处。通过计算这些区域的误差，我们可以进一步比较不同模型捕获对象细节的能力。我们将发布此数据集，以更好地在真实图像上对抠图方法进行基准测试。

实施细节。 我们使用Composition-1k训练集来训练模型。考虑到两个数据集之间的语义差距，我们使用[32]的数据列表，从训练数据中移除透明对象。继[18]之后，我们还将重新JEPG、高斯模糊和高斯噪声应用于输入图像，以使模型更好地适应合成数据集中很少看到的真实世界噪声。由于这些增强可以改变合成训练图像的颜色，因此原始颜色标签可能不适用。因此，我们从监管中去除了合成损失。其他训练设置与第4节相同。

对于基于trimap的基线，我们遵循[32]，通过将前景类概率>0.95的每个像素标记为前景，<0.05标记为背景，其余标记为未知，根据分割[44]自动生成trimap，将未知区域用k=20进一步膨胀，以确保其不会错过长的头发。对于我们的模型，我们将prob=0.5的分割阈值设置为二进制掩码(we threshold the segmentation at prob = 0.5 to a binary mask.)。

结果我们将结果与最先进的基于trimap的方法DIM[41]、GCA[24]、IndexNet[29]、上下文感知Matting[18]和基于Composition-1k训练集和附加肖像数据集训练的无trimap方法Late Fusion Matting[45]进行了比较。基线的结果是通过开源推理演示或提供的预训练权重获得的。

我们在两种设置下总结了表5中的结果：全图，其中计算了整个图像的误差，可以测量整体质量；细节，其中仅在包含头发细节或其他软区域的手动标记区域中计算错误。

与其他方法相比，我们的模型取得了优异的性能，尤其是在细节部分，这说明了它捕捉边界细节的能力。我们还注意到，无trimap方法LFM的性能很差，这可能是由于他们的肖像训练数据不够多样，从而限制了模型的可推广性（参见图5示例）。

我们将我们的结果与另一种无trimap方法BSHM[27](Boosting semantic human matting with coarse annotation, CVPR2020)进行了比较。我们联系了作者，并在我们的肖像数据集的100个图像子集上获得了测试结果。由于[27]只能处理低分辨率图像，我们将图像下采样到长边720，并且也在此尺度上计算度量。[27]对于整个图像达到MSE 0.0155和SAD 10.66，对于细节区域达到MSE 0.0910和SAD 7.60，而我们的MG Matting获得了优异的性能，对于整个图像，MSE 0.0095和SAD 8.01，对于细节，MSE 0.0637和SAD 5.94。

指导鲁棒性。 为了验证我们的模型对外部指导掩模的鲁棒性，我们进行了一个实验，用扰动的外部指导掩膜来馈送网络。特别地，我们分别以10、20、30的核尺寸腐蚀/扩张掩模。我们注意到，在不同扰动的外部指导下，模型预测一致。掩模分别以核尺寸10、20和30被腐蚀时，SAD误差从26.8增加到27.1、27.2、27.4。掩模分别以核尺寸10、20和30被膨胀时，SAD误差分别为27.0、27.4、28.1。图6提供了一个可视化示例。

6 结论

在本文中，我们提出了掩模指导（MG）抠图，这是一个解决自然图像抠图问题的通用框架。与以前的方法不同，我们的方法并不专门适配某一种特定的指导掩膜。相反，它可以处理多种类型的指导掩模，如 trimap、粗分割掩模或低质量alpha抠图。我们的模型鲁棒性的关键在于渐进细化网络，该网络在解码过程中提供自指导并逐步细化不确定区域。此外，我们还提出了一种简单而有效的方法，称为Random Rendering，以解决现有数据集的局限性，并学习更好的前景颜色估计模型，这很重要但在以前很少研究。此外，我们发布了一个新的具有高质量标签的真实世界抠图数据集，以更好地定量评估真实世界场景中的抠图模型，我们希望这可以为现实世界抠图的方向提供一些帮助。

Mask Guided Matting
Mask Guided Matting via Progressive Refinement Network 原文...
InstMatt：人像实例抠图
Human Instance Matting via Mutual Guidance and Multi-Inst...
MatteFormer
MatteFormer: Transformer-Based Image Matting via Prior-To...
RobustVideoMatting
Robust High-Resolution Video Matting with Temporal Guidan...
口译笔记📒
Be guided by 坚持 Be inspired by
SGHM：语义分割引导的人体抠图
Robust Human Matting via Semantic Guidance 原文：https://arx...
SampleNet Matting解读
论文《Learning-based Sampling for Natural Image Matting》将基于采...
Highly Efficient Natural Image M
Highly Efficient Natural Image Matting 25 Oct 2021 BMVC20...
shared matting原理
几个问题：基本流程？ Expansion of Known Regions: extrapolates “kno...
react 实用库
表单： text-mask[https://github.com/text-mask/text-mask] — ...