用于语义分割的物体上下文表示

作者: Valar_Morghulis | 来源:发表于2020-08-03 18:10 被阅读0次

用于语义分割的物体上下文表示
A Relation-Augmented Fully Convo
用于语义分割的高分辨率表示
CVPR2019|In Defense of Pre-train
我所了解的图像分割
语义图像分割概览
PointRend: Image Segmentation as
Y19M4W4-物体检测之网络结构
[译] 用于语义分割的全卷积网络FCN（UC Berkeley）
基于深度学习的语义分割

https://paperswithcode.com/paper/object-contextual-representations-for#code

https://github.com/HRNet/HRNet-Semantic-Segmentation/tree/HRNet-OCR

HRNet v2 + OCR +SigFix

这实际上是3篇论文

https://arxiv.org/abs/1909.11065v5

https://github.com/openseg-group/openseg.pytorch

作者还特别推荐他们做的SigFix

可以考虑一个（扩张的）mobilenet v3 + OCR + SegFix的

或者（扩张的） ResNeSt + OCR + SegFix

用于语义分割的物体上下文表示

Object-Contextual Representations for Semantic Segmentation

摘要：本文研究语义分割中上下文信息的聚合( aggregation)的问题。我们提出一个简单而有效的方法，即物体的上下文表示，利用对应物体的类别的表示来刻画一个像素。首先，在分割的真值的监督下学习物体的区域。然后，将物体区域内的像素的表示进行聚合，以计算物体区域表示。最后，计算每个像素和每个区域之间的关系，并使用物体上下文表示来扩展每个像素的表示，其中，物体区域表示是所有物体区域表示的加权聚合。实验证明，我们的方法在不同的基准上取得了有竞争力的表现：Cityscapes、ADE20K、LIP、PASCAL-Context和COCO-Stuff。在Cityscapes排行榜上，我们在ECCV2020提交截止日期前，我们的“HRNet+OCR+SegFix”模型排名第一。代码在https://git.io/openseg以及https://git.io/HRNet.OCR

关键词：语义分割，上下文信息聚合

1 引言

有很多关于语义分割的研究，例如高分辨率表示学习[7,55]，上下文信息聚合[79,6]，等等。本文关注的也是上下文信息聚合。

一个位置的像素的上下文，通常是指一系列位置，例如，周围的像素。早期的研究主要是有关空间上的尺度，即空间上的范围，例如ASPP[6]和PPM[79]，使用不同尺度的上下文。近年来的一些工作，例如DANet[16]，CFNet[76]和OCNet[71]，是考虑一个位置的像素和它的上下文位置像素的关系，并用更高的权重对相似的上下文位置像素表示进行聚合。

我们的思路是研究一个位置的像素和它的上下文之间的关系。动机是，一个像素的类标签是该像素所属物体的类别。目的是，利用对应类别的物体区域表示来增强一个像素的表示。实验证明，这种特征增强方案是有效的，如图1所示，当给定物体区域的真值标签时，分割质量有显著的提高。

我们的方法分3步。首先，将上下文像素划分为一组soft物体区域，每个区域对应一个类别，也即，一个由深度网络（例如ResNet[23]或HRNet[55]）输出的粗soft分割。该划分是在分割真值的监督下学习的。然后，通过聚合每个物体区域中的像素表示来估计对应的物体区域的表示。最后，使用物体的上下文表示（OCR）来增强每个像素的表示。OCR是所有物体区域表示的加权聚合，权重是根据像素和物体区域之间的关系来计算的。

我们提出的OCR方法不同于传统的多尺度上下文方案。我们的OCR区别对待同类物体的上下文像素和不同类物体的上下文像素，而多尺度上下文，例如ASPP[6]和PPM[79]则不做这种区分，而只是区别对待不同空间位置的像素。图2所示是我们的OCR上下文和多尺度上下文之间的区别的例子。

另一方面，我们的OCR方法也不同于以前的关系上下文方法[63,16,71,74,76]。我们的方法将上下文像素构造为物体区域，并利用像素和物体区域之间的关系。相比之下，以前的关系上下文方案是分别地考虑上下文像素，只利用像素和上下文像素之间的关系[16,71,76]，或者仅仅根据像素来预测关系，而不考虑区域[74]。

我们在不同的有挑战性的语义分割基准上评估我们的方法。我们的方法优于PSPNet、DeepLabv3等多尺度上下文方案和DANet等最新的关系上下文方案，而且速度也更好。我们的方法在5个基准测试上取得了有竞争力的性能，在Cityscapes test上是84.5%，在ADE20K val上是45.66%，在LIP val上是56.65%，在PASCAL-Context test 上是56.2%，在COCO Stuff test 上是40.5%此外，我们将我们的方法应用到Panoptic-FPN[29]上，并且在COCO全景分割任务上证明了我们方法的有效性，Panoptic FPN+OCR在COCO-val上达到44.2%。

2 相关工作

多尺度上下文 PSPNet[79]对金字塔池化表示进行常规卷积，以捕获多尺度上下文。DeepLab系列[5,6]采用不同扩张率的并行扩张卷积（每个扩张率捕捉不同尺度的上下文）。最近有一些不同的扩展版本，例如，DenseASPP[68]使用更密集的扩张率，以覆盖更大范围的尺度变化。其他一些研究[7,42,17]构造编码-解码的结构，以利用多个不同分辨率的特征作为多尺度上下文。

关系上下文 DANet[16]，CFNet[76]和OCNet[71]通过聚合上下文像素的表示来增加每个像素的表示，其中上下文由所有像素组成。与全局上下文[46]不同，这些工作基于自注意力方案[63,61]，考虑像素之间的关系（或相似性），并以相似度作为权重进行加权聚合。

双注意力及其相关工作[8,74,9,40,38,73,34,24]和ACFNet[74]将像素分组到一系列区域中，然后通过聚合区域表示来增强像素表示，其中，它们的上下文关系是根据使用到的像素表示来预测的。

我们的方法是一种关系上下文方法，与双注意力和ACFNet有关。不同之处在于区域形成和像素-区域之间的关系计算。在我们的方法中，区域是通过分割真值的有监督学习习得的。相比之下，以前的方法，除了ACFNet，区域都是无监督获得的。另一方面，我们的方法中，一个像素和一个区域之间的关系的计算，会同时考虑像素表示和区域表示。而以前的工作只是从像素表示来计算关系。

从粗到细的分割 已经有一些从粗到细的分割方案[15,18,33,59,27,32,84]，逐步地细化分割图，使之从粗糙变精细。例如，[33]将粗的分割图视为一个额外的表示，并将其与原始图像或者其它表示拼接起来，以计算一个精细的分割图。

从某种意义上讲，我们的方法也可以看作是一个由粗到细的方案。不同之处在于我们使用粗分割图来生成上下文表示，而不是直接作为额外的表示。在补充材料中，我们将我们的方法与传统的由粗到细的方案进行了比较。

区域层面的分割 已有许多区域层面的分割方法[1,2,21,20,64,50,2,60]，将像素组织（organize）为一系列区域（通常是超像素），然后对每个区域进行分类，以获得分割结果。我们的方法没有对每个区域进行分类，而是使用区域来学习更好的像素表示，从而得到更好的像素标记。

3 方法

语义分割是对一张图像 $I$ 的每个像素 $p_{i}$ 预测一个标签 $l_{i}$ ，其中， $l_{i}$ 是 $K$ 个类别之一。

3.1 背景

多尺度上下文 ASPP[5]模块通过执行几个具有不同扩张率的并行扩张卷积来捕获多尺度上下文信息[5,6,70]：

$y_{i}^d =\sum_{p_{s} =p_{i}+d\Delta _{t} }K_{t}^d x_{s}$

其中， $p_{s} =p_{i}+d\Delta _{t}$ 是扩张率为 $d$ 的扩张卷积在位置 $p_{i}$ 的第 $s$ 个采样位置，DeepLabv3[6]中， $d$ =12,24,36。 $t$ 是一个卷积的位置序号，例如，对于3×3卷积， $\left\{ \Delta _{t} =(\Delta _{w} ,\Delta _{h} \vert\Delta _{w}=-1,0,1, \Delta _{h}=-1,0,1) \right\}$ 。 $x_{s}$ 是 $p_{s}$ 处的表示， $y_{i}^d$ 是在 $p_{i}$ 处，第 $d$ 个扩张卷积的输出表示。 $K_{t}^d$ 是第 $d$ 个扩张卷积在位置 $t$ 的卷积核参数。输出的多尺度上下文表示是由并行扩张卷积输出的表示的拼接。

基于扩展卷积的多尺度上下文方案在保留分辨率的情况下捕获多尺度的上下文。PSPNet[79]中的金字塔池化模块对不同尺度的表示进行常规卷积，也可以捕获多个尺度的上下文，但是对于大尺度的上下文则失去分辨率。

关系上下文关系上下文方案[16,71,76]通过考虑以下关系来计算每个像素的上下文：

$y_{i} =\rho (\sum_{s\in L } w_{is} \delta (x_{s} ))$

其中， $L$ 指图像中的一些列像素， $w_{is}$ 是 $x_{i}$ 和 $x_{s}$ 之间的关系，其仅能从 $x_{i}$ 预测得到，或者从 $x_{i}$ 到 $x_{s}$ 计算得到。 $\delta (\cdot )$ 和 $\rho (\cdot )$ 是两种不同的变换函数，如自注意力[61]中所做的那样。全局上下文方案是关系上下文的一种特例，即令 $w_{is}=1/\vert L \vert$ 。

3.2 Formulation

像素 $p_{i}$ 的标签 $l_{i}$ 本质是像素 $p_{i}$ 所在的物体的类别标签。基于此，我们提出了一种物体上下文表示方法，通过利用相应的物体表示来刻画每个像素。

所提的物体上下文表示的方案，步骤(1)是将图像 $I$ 中所有像素划分(structurizes)为 $K$ 个soft物体区域；步骤(2)是聚合第 $k$ 个物体区域里的所有像素的表示，作为第 $k$ 个物体区域的区域表示 $f_{k}$ ；步骤(3)是考虑像素和所有物体区域的关系，聚合 $K$ 个物体区域表示到像素表示上，以增强像素表示：

$y_{i} =\rho \sum_{k=1}^K w_{ik} \delta (f_{k} )$

其中， $f_{k}$ 是第 $k$ 个物体区域的表示， $w_{ik}$ 是第 $i$ 个像素到第 $k$ 个物体区域之间的关系。 $\delta (\cdot )$ 和 $\rho (\cdot )$ 是变换函数。

soft物体区域 我们将图像 $I$ 划分为 $K$ 个soft物体区域 $\left\{ M_{1} ,M_{2} ,... , M_{K} \right\}$ 。每个物体区域 $M_{k}$ 对应的是类别 $k$ ，并且其表示为一个2D的图(map)，或者粗分割图，其中每个entry表示对应像素属于第 $k$ 类的程度。

我们从主干网络（例如ResNet或HRNet）的中间输出表示来计算 $K$ 个物体区域。训练过程中，使用交叉熵损失从分割真值的监督学习下生成物体区域。

物体区域表示 我们加权聚合所有像素的表示，加权的权重是该像素属于第 $k$ 个物体区域的程度，这样就计算出第 $k$ 个物体区域的表示：

$f_{k} =\sum_{i\in L}\check{m} _{ki} x_{i}$

其中， $x_{i}$ 是像素 $p_{i}$ 的表示， $\check{m} _{ki}$ 是经过归一化的、像素 $p_{i}$ 属于第 $k$ 个物体区域的程度。我们使用空间softmax来归一化每个物体区域 $M_{k}$ 。

物体上下文表示 我们计算每个像素到每个区域的关系：

$w_{ik} =\frac{e^{\kappa(x_{i},f_{k} )} } {\sum_{j=1}^K e^{\kappa(x_{i},f_{j} )}}$

其中， $\kappa (x,f)=\phi (x)^T\psi (f)$ 是未归一化的计算关系的函数。 $\phi (\cdot )$ 和 $\psi (\cdot )$ 是两个变换函数，由1×1 卷积→ BN → ReLU实现。这是受自注意力[61]的启发，以便更好地估计关系。

像素 $p_{i}$ 物体上下文表示 $y_{i}$ 根据公式(3)计算。公式(3)中， $\delta (\cdot )$ 和 $\rho (\cdot )$ 都是变换函数，实现是1×1 卷积→ BN → ReLU，而这是跟随non-local网络[63]的工作。

表示的增强 像素 $p_{i}$ 的最终表示由两个部分的聚合来更新，部分(1)是原来的表示 $x_{i}$ ，部分(2)是物体上下文表示 $y_{i}$ :

$z_{i} =g([x_{i}^T ,y_{i}^T ])$

其中， $g(\cdot )$ 是变换函数，来融合原始表示和物体上下文表示，实现是1×1 卷积→ BN → ReLU。我们方法的整个流程如图3所示。

评论：最近的一些研究，如双注意力[8]和ACFNet[74]，和公式(3)类似，但在某些方面与我们的方法不同。例如，双注意力中形成的区域和物体的类别是不对应的，而ACFNet[74]中关系的计算仅仅使用像素表示，没有使用物体区域表示。

3.3 架构

主干网络 我们使用扩张的ResNet-101[23]（output stride 8）或者HRNet-W48[55]（output stride 4）。对于扩张的ResNet-101，OCR模块的输入包括两个表示，第一个表示来自Stage 3，用来预测粗分割（物体区域），另一个表示来自Stage 4 ，它经过一个3×3的卷积，输出通道数是512，然后输入给OCR模块。对于HRNet-W48，仅仅使用最后一层的表示作为OCR模块的输入。

OCR模块 如图3所示，我们将上述的方法实现为OCR模块。我们用一个线性函数（1×1卷积）来预测监督下的粗分割（软物体区域），使用像素级的交叉熵损失。所有的变换函数， $\psi (\cdot )$ ， $\phi (\cdot )$ ， $\delta (\cdot )$ ， $\rho (\cdot )$ ， $g(\cdot )$ ，实现都是1×1 卷积→ BN → ReLU，前三个输出256个通道，最后两个输出512通道。我们使用线性函数从最终表示中预测最终分割，并在最终分割预测中使用像素层级的交叉熵损失。

3.4 实证分析

我们以扩张的ResNet-101为主干，对Cityscapes验证集进行实证分析实验。

物体区域的有监督学习 我们研究了物体区域有监督学习的影响。我们将我们的方法修改下：移除软物体区域的有监督学习（即损失函数），并在ResNet-101的Stage 3中添加另一个辅助损失。保持其它的设置不变，并在表1最左边2列报告结果。可见，形成物体区域的有监督学习对性能是关键的。

像素和区域之间的关系 我们将我们的方法和其它两种不使用区域表示来估计像素-区域关系的方法进行对比：(i)双重注意力DA[8]使用像素表示来预测关系，(ii)ACFNet[74]直接使用一个中间分割图来预测关系。我们自己使用了这两种方法，只使用扩张的ResNet-101作为主干，不使用多尺度上下文（ACFNet的结果通过使用ASPP[74]得到了改进）。

表1中的比较表明，我们的方法性能更好。原因是我们利用像素表示和区域表示来计算关系。区域表示能够刻画具体图像中的物体，因此，对于具体图像，相比仅仅使用像素表示，计算出来的关系要更为准确。

使用分割真值的OCR 我们研究了使用分割真值来形成物体区域表示，以及形成像素和区域之间的关系，来分割。我们称之为使用分割真值的OCR（GT-OCR），以验证我们的假设（motivation）是对的。(i)物体区域使用分割真值：将属于第 $k$ 个物体区域的像素 $i$ 的置信度设为1，即 $m_{ki} =1$ ，如果真值标签 $l_{i} \equiv k$ 并且 $m_{ki} =0$ 的话，反之同理。(ii)使用真值来计算像素和区域之间的关系：将像素和区域之间的关系设置为1，即 $w_{ik} =1$ ，如果真值标签 $l_{i} \equiv k$ 并且 $m_{ki} =0$ 的话，反之同理。我们在图1中展示了GT-OCR在四个不同基准上的详细结果。

4 实验：语义分割

4.1数据集

Cityscapes Cityscapes数据集[11]的任务是理解城市场景，总共有30个类别，只有19个类别用来评估解析。数据集包含5k张高质量的像素层级的精细标注图片，以及20k张粗标注图片。5k张精细标注的图片中，2975张作为训练集，500张作为验证集，1525张作为测试集。

ADE20K ADE20K数据集[81]用于ImageNet场景解析挑战赛2016。有150个类别和不同的场景，有1038个图像层级的标注，20k张作为训练集，2k张作为验证集，3k张作为测试集。

LIP LIP数据集[19]在2016年LIP挑战赛中用于单人解析任务。大约有50K个图像，有20个类别，其中19个是人体部位语义类别，1个是背景类别。训练集、验证集、测试集分别有30k、10k、10k张图像。

PASCAL-Context PASCAL-Context数据集[49]是一个具有挑战性的场景解析数据集，包含59个语义类和1个背景类。训练集和测试集分别有4998和5105张图像。

COCO-Stuff COCO-Stuff数据集[3]是一个具有挑战性的场景解析数据集，包含171个语义类别。训练集和测试集分别有9k张和1k张图像。

4.2 实现细节

训练设置 我们用在ImageNet上的预训练模型来初始化主干网络，随机初始化OCR模块。使用polynomial学习率策略，其中因子是 $(1-(\frac{iter}{iter_{max} } )^{0.9} )$ ，最终损失的权重设置为1，用于监督物体区域估计的辅助损失的权重设为0.4。使用InPlace-ABN-sync[53]来同步多个GPU上BN的平均值和标准差。数据增扩部分，我们使用随机的水平翻转、在[0.5，2]范围内的随机缩放，在[-10，10]范围内的亮度的随机抖动。我们在复现别人的方法的时候，如PPM，ASPP，使用相同的训练参数，以保证比较的公平。我们按照先前的工作[6,75,79]来在基准数据集上设置训练参数。

Cityscapes 初始学习率是0.01，权重衰减是0.0005，裁剪尺寸为769×769，batch size是8。对于在验证集上评估的时候，在训练集上迭代40k次；在测试集上评估的时候，在训练集+验证集上迭代100k次（iterations）。对于用额外的数据来数据增扩的实验：(i)使用粗标注，首先在训练集+验证集上训练，100k次iterations，初始学习率为0.001，然后在粗标注数据集上微调，50k次iterations，然后继续在训练集+验证集上微调，20k次iterations，两次微调的初始学习率都设为0.001。(ii)使用粗标注和 Mapillary[50]数据集，首先在Mapillary的训练集上训练，500k次iterations，batchsize是16，初始学习率是0.01，（在Mapillary的验证集上达到50.8%），然后在Cityscapes上多次微调，顺序是，训练集+验证集100k次iterations → 粗标注数据50k次iterations → 训练集+验证集20k次iterations，三个微调的初始学习率都设为0.001，批量大小都设为8。

ADE20K 如果没有特别说明，设定初始学习率为0.02，权重衰减为0.0001，裁剪大小为520×520，批量大小为16，训练迭代次数为150K。

LIP 如果没有特别说明，初始学习率为0.007，权重衰减为0.0005，裁剪大小为473×473，批量大小为32，训练迭代次数为100K。

PASCAL-Context 如果没有特别说明，初始学习率为0.001，权重衰减为0.0001，裁剪大小为520×520，批量大小为16，训练迭代次数为30K。

COCO-Stuff 如果没有特别说明，初始学习率为0.001，权重衰减为0.0001，裁剪大小为520×520，批量大小为16，训练迭代次数为60K。

4.3与现有上下文方案的比较

我们以扩展的ResNet-101为主干进行实验，使用相同的训练/测试设置来保证公平性。

多尺度上下文。我们将OCR与包括PPM[79]和ASPP[6]在内的多尺度上下文方案在包括城市景观在内的三个基准上进行了比较

试验，ADE20K val和LIP val见表2。我们复制的PPM/ASPP out 执行[79,6]中最初报告的数字。从表2可以看出，我们的OCR在很大程度上优于两种多尺度上下文方案。例如，四个比较的OCR相对于PPM（ASPP）的绝对增益分别为1.5%（0.8%）、0.8%（0.7%）、0.78%（0.68%）、0.84%（0.5%）。据我们所知，考虑到基线（使用扩展的ResNet-101）已经很强大，并且OCR的复杂性要小得多，这些改进已经非常显著。

关系上下文。

我们在城市景观测试、ADE20K val和LIP val这三个相同的基准上，将OCR与包括自我注意[61,63]、Criss Cross Attention[26]（CC Attention）、DANet[16]和Double Attention[8]的关系上下文方案进行比较，我们微调区域的数量（因为它对超参数的选择非常敏感），我们选择性能最好的64个。补充材料中说明了更多详细的分析和比较。

从表3的结果可以看出，在公平比较的情况下，我们的OCR优于这些关系上下文方案。值得注意的是，我们的OCR的复杂性比大多数其他方法小得多。复杂性。我们将OCR的效率与多尺度上下文方案和关系上下文方案的效率进行了比较。我们测量上下文模块引入的增加的参数、GPU内存、计算复杂度（以flop数度量）和推理时间，不从主干计算复杂度。表4中的比较显示了所提出的OCR方案的优越性。参数：与多尺度上下文方案相比，大多数关系上下文方案需要更少的参数。例如，我们的OCR只需要PPM和ASPP参数的1/2和2/3。内存：与其他方法（例如，DANet、PPM）相比，OCR和Double-Attention都需要更少的GPU内存。例如，我们的GPU内存消耗分别是PPM、DANet、CC-Attention和Self-Attention的1/4、1/10、1/2、1/10。 FLOPs：我们的OCR只需要1/2、7/10、3/10、2/5和1/2的FLOPs，分别基于PPM、ASPP、DANet、CC-Attention和Self-Attention。运行时间：OCR的运行时间非常小：只有PPM、ASPP、DANet、CC-Attention和Self-Attention的运行时间的1/2、1/2、1/3、1/3和1/2。一般来说，如果考虑性能、内存复杂性、GFLOPs和运行时间之间的平衡，OCR是一个更好的选择。4.4与现有技术的比较考虑到不同的方法对不同的基线进行改进以获得最佳性能，我们将现有的作品根据其应用的基线分为两组：（i）简单基线：扩展的ResNet-101，步长为8；（ii）高级基线：PSPNet，DeepLabv3，多网格（MG）编解码器结构，通过Stride4或更强大的主干网（如WideResNet-38、Exception-71和HRNet）实现更高分辨率的输出。为了公平比较两组患者，我们在简单基线（扩张的ResNet-101和步幅8）和高级基线（HRNet-W48和步幅4）上进行OCR。值得注意的是，与其他先进的HRW48方法相比，HRW48的净收益与其他方法相比有显著的提高。例如，DGCNet[77]使用多网格时，其收益为0.7%，而OCR在城市景观上的主干测试中获得了0.6%的收益。我们总结了表5中的所有结果，并分别说明了每个基准的比较细节，如下所示。城市景观。与基于粗糙数据的城市景观测试简单基线方法相比，我们的方法达到了81.8%的最佳性能，已经可以与基于先进基线的DANet、ACFNet等方法相媲美。我们的方法通过利用粗注释图像进行训练，获得了82.4%的较好性能。

为了与基于高级基线的方法进行比较，我们在HRNet-W48上执行OCR，并在Mapillary数据集上对模型进行预训练[50]。我们的方法在城市景观测试中达到84.2%。我们进一步应用了一种新的后处理方案SegFix[72]来细化边界质量，带来了0.3%↑的改善。我们最终提交的“HRNet+OCR+SegFix”达到了84.5%，在我们提交时已在城市景观排行榜上排名第一。事实上，我们在HRNet-W48上分别进行了PPM和ASPP的测试，实验发现直接应用PPM或ASPP并没有提高性能，甚至会降低性能，而我们的OCR却一直在提高性能。

值得注意的是，最近的工作[57]将我们的“HRNet+OCR”和新的分层多尺度注意力机制相结合，在城市景观排行榜上创造了85.4%的最新表现。

ADE20K。从表5可以看出，与以前大多数基于简单基线和高级基线的方法相比，我们的OCR实现了具有竞争力的性能（45.28%和45.66%）。例如，ACFNet[22]同时利用多尺度上下文和关系上下文来实现更高的性能。最近的ACNet[17]通过结合更丰富的本地和全球环境实现了最佳性能。

嘴唇。基于简单的基线，我们的方法在LIP-val上达到了55.60%的最佳性能。采用更强的主干网HRNetV2-W48进一步提高了性能，达到56.65%，优于以往的方法。最近的工作CNIF[62]通过注入人体部分的层次结构知识，获得了最好的性能（56.93%）。我们的方法可能受益于这种层次结构知识。所有的结果都是基于翻转测试，没有多尺度测试6。

帕斯卡上下文。我们根据[55]评估了59个类别的绩效。可以看出，我们的方法优于以往基于简单基线的最佳方法和基于高级基线的最佳方法。HRNet-W48+OCR方法的最佳性能为56.2%，显著优于次优的ACPNet（54.7%）和ACNet（54.1%）。

可可的东西。可以看出，我们的方法达到了最好的性能，基于ResNet-101的39.5%和基于HRNetV2-48的40.5%。定性结果。由于篇幅有限，我们在补充材料中说明了定性结果。

5个实验：全景分割

为了验证我们方法的泛化能力，我们将OCR方案应用于更具挑战性的全景分割任务[30]，它将实例分割任务和语义分割任务结合起来。

数据集。我们选择COCO数据集[43]来研究我们的方法在全景分割中的有效性。我们沿用了之前的工作[29]，使用了所有2017年的COCO图片，注释了80个thing和53个stuff类。

培训详情。我们遵循Detectron2[65]中默认的“COCO Panoptic Segmentation Baselines with Panoptic FPN（3×learning schedule）”7的默认训练设置。复制的panopoptic FPN比文[29]中的原始数字（panopoptic FPN w/ResNet-50，PQ:39.2%/Panoptic FPN w/ResNet-101，PQ:40.3%）达到了更高的性能，我们选择更高的复制结果作为基线。

在我们的实现中，我们使用来自语义分割头（在全景FPN中）的原始预测来计算软对象区域，然后使用OCR头部来预测精确的语义分割图。我们将原始语义分割头和OCR头的损失权重设置为0.25。为了公平比较，所有其他培训设置都保持不变。我们直接使用相同的OCR实现（用于语义分割任务），而无需任何调整。

结果。在表6中，我们可以看到OCR将全景FPN（ResNet-101）的PQ性能从43.0%提高到44.2%，其中主要的改进来自于mIoU和PQSt测量的填充区域更好的分割质量。具体地说，我们的OCR使全景FPN（ResNet-101）的mIoU和PQSt分别提高了1.0%和2.3%。总的来说，“全景式FPN+OCR”的性能与各种最新的方法相比是非常有竞争力的[66,44,69]。我们还报告了全光FPN与PPM和ASPP的结果，以说明我们的OCR在补充材料方面的优势。

6结论

在这项工作中，我们提出了一种用于语义分割的对象上下文表示方法。成功的主要原因是像素的标签是像素所在对象的标签，通过对每个像素进行相应的对象区域表示来增强像素表示。我们的经验表明，我们的方法在各种基准上带来了一致的改进。

确认本工作得到国家自然科学基金第61390511号合同和中国科学院前沿科学重点研究项目QYZDJ-SSW-JSC009部分资助。

7补充

在A部分，我们将我们的方法与现有的从粗到细的方法进行了比较。在第二节中，我们研究了区域数的影响，并用双重注意说明了定性结果。在C部分中，我们报告了COCO val 2017上的Panoptic FPN+PPM/ASPP的结果，以及COCO test-dev上的Panoptic FPN/Panoptic FPN+OCR的结果。在D部分，我们将OCR应用于MobileNetV2，以验证我们的方法在实时应用中的有效性。在E部分，我们根据最近的MMSegmentation代码基[67]，验证了我们的OCR相对于传统的DeepLabv3[6]和DeepLabv3+[7]的优势。最后，在F部分，我们举例说明了基于OCR方案的质量改进的一些例子。

与由粗到细的方案相比，许多现有的研究[15,18,33,59]利用各种粗到细的方案来利用粗分割结果来提高最终的分割结果。我们主要将OCR与两种流行的机制进行比较，包括：

标签细化[18,25]：将输入图像或特征映射与粗略预测相结合，以预测改进的标签映射。我们将粗分割图与ResNet-101第4阶段输出的特征图连接起来，并在拼接后的特征图上应用最终分类器来预测精细分割图。

label Ensement[37,51]：直接将粗分割图与细分割图进行集成。我们直接使用粗分割图和细分割图的加权和作为最终的精细预测。

此外，我们还报告了仅使用粗分割图（来自ResNet阶段3的预测）和仅使用精细分割图（来自ResNet阶段4的预测）的性能。我们选择扩张的ResNet-101作为基线。从表7中的结果可以看出，我们的OCR在很大程度上优于所有其他从粗到细的方法。

双重注意消融研究

区域数量我们在双注意[8]方法中对区域数量进行微调，并将城市景观val的结果报告在表8中。如果没有指定，我们选择K=64。此外，可以看出，双注意的表现对区域数目的选择非常敏感，并且我们的方法（固定区域数）始终优于不同区域数的双重注意。

定性结果

在图4中，我们用双重注意可视化预测区域和OCR预测的目标区域。可以看出，OCR预测的目标区域都分别对应于明确的语义，如道路、人行道和汽车类别，而双注意预测区域主要突出轮廓像素而没有特定的语义，这可能是我们方法的主要优点。

更多全景分割结果

首先，我们直接将PPM或ASPP头应用于全景FPN中的语义分割头之前，而无需任何其他修改。在表9中，

我们报告了这两种方法的结果，我们可以发现我们的OCR优于PPM头和基于全景FPN的应用程序头。值得注意的是，如本文所示，我们的OCR也比PPM和ASPP更有效。其次，我们还报告了基于

表10中的OCR。我们可以看到，我们的OCR在COCO-val集和test-dev集上都持续改进了结果。

应用于MobileNetV2

我们将OCR应用到MobileNetV2上，并在表5中报告性能。具体来说，我们按照相同的训练设置训练MobileNetV2，比如将批处理大小更改为16，训练迭代次数为100K。可以看出，我们的OCR显著提高了城市景观val的分段性能，同时略微增加了推断时间（或更小的FPS）。

M分段结果

为了验证我们的OCR方法能够很好地在不同的代码基上进行推广，我们进一步比较了OCR、DeepLabv3和DeepLabv3+基于最新的代码基MMSegmentation的分割结果[67]。具体地说，我们在两种不同的训练迭代计划下评估不同的方法：（i）40K次迭代，（ii）80K次迭代。我们将初始学习率设置为0.02，批大小为16。为了保证比较的公平性，我们默认所有方法的裁剪尺寸为1024×512，主干为扩展的ResNet-101，输出步长为8。

我们在表11中报告了GPU内存消耗（用于培训）、推理速度（用于测试）和mIoUs（在城市景观验证集上）。我们可以看到，在这两种训练环境下，OCR的性能都比DeepLabv3和DeepLabv3+要好或相当。特别是，我们的OCR需要更少的GPU内存消耗，并在城市景观基准上实现更高的FPS。

用于语义分割的物体上下文表示
https://paperswithcode.com/paper/object-contextual-repres...
A Relation-Augmented Fully Convo
1 文章简介方向：语义分割会议：CVPR2019 2 主要思想在语义分割任务中添加更多的上下文信息（关系）。...
用于语义分割的高分辨率表示
HRNetV2 应该是一系列论文，按时间顺序是： 0.前身：HRNetV1，用于人体姿态估计 Deep High-...
CVPR2019|In Defense of Pre-train
用于道路驾驶的实时语义分割 Abstract 在要求苛刻的道路驱动数据集上, 语义分割方法最近取得了成功, 激发了...
我所了解的图像分割
图像分割是我大二2019年做的东西，这篇文章用来总结。一、什么是图像分割分语义【像素级别图像】，实例【分割物体...
语义图像分割概览
摘要：本文讨论如何利用卷积神经网络进行语义图像分割的任务。语义图像分割，目标是将图像的每个像素标记为所表示的相关...
PointRend: Image Segmentation as
文章： FAIR的工作，用于改善实例分割以及语义分割的边缘分割结果。分割网络通常都输出比原图小很多的预测结果，然后...
Y19M4W4-物体检测之网络结构
BaseLine应该还是是FPN。物体检测的网络结构现在的研究还是比较弱的。语义分割相比之下很成熟。“强语义+强位...
[译] 用于语义分割的全卷积网络FCN（UC Berkeley）
题目：用于语义分割的全卷积网络文章链接：《Fully Convolutional Networks for Se...
基于深度学习的语义分割
基于深度学习的语义分割 1 什么是语义分割（Semantic Segmentation）语义分割是在像素层面...