NeurIPS2019：3D点云实例分割的新框架D-BoNet

作者: 图像算法 | 来源:发表于2019-12-23 11:18 被阅读0次

导读

机器能够理解3D场景是自动驾驶，增强现实和机器人技术的基本必要条件。3D几何数据（例如点云）的核心问题包括语义分割，对象检测和实例分割。在这些问题中，实例分割仅在文献中才开始解决。主要的障碍是点云本质上是无序的，无结构的和不均匀的。广泛使用的卷积神经网络要求对3D点云进行体素化，从而导致高昂的计算和存储成本。第一个直接解决3D实例分割的神经算法是SGPN，该算法通过相似矩阵学习对每点特征进行分组。同样，ASIS，JSIS3D，MASC，3D-BEVIS的每点特征分组管道应用于分割3D实例。在PartNet 中将实例分割表述为每点特征分类问题。但是，这些无提议方法的学习到的部分没有很高的客观性，因为它们没有明确地检测到对象边界。另外，他们不可避免地需要后处理步骤，例如均值漂移聚类，以获得最终实例标签，这在计算上很繁琐。另一个是基于提议的3D-SIS和GSPN ，它们通常依赖于两阶段训练和昂贵的非最大抑制来修剪密集对象提议。

在本文中，我们为3D实例分割提供了一种简单，高效且新颖的框架，其中使用高效的MLP通过单向阶段对对象进行松散但唯一的检测，然后通过简单的点级二进制分类器精确地对每个实例进行分割。为此，我们引入了新的边界框预测模块以及一系列精心设计的损失函数，以直接学习物体边界。我们的框架与现有的基于提案和无提案的方法有很大不同，因为我们能够高效地分割所有具有高对象性的实例，而无需依赖昂贵且密集的对象提案。

团队介绍

第一作者杨波是牛津大学博士生。

该团队提出的方法称为3D BoNet，遵循每点多层感知器（MLP）的简单设计原理。该框架为点云中的所有实例直接回归3D边界框，同时为每个实例预测点级蒙版。它由一个骨干网和两个并行的网络分支组成，用于边界框回归和点掩码预测。

3D-BoNet是单阶段，免锚且可端到端训练的。此外，由于与现有方法不同，它不需要任何后处理步骤（例如非最大抑制，特征采样，聚类或投票），因此计算效率非常高。大量的实验表明，我们的方法超越了ScanNet和S3DIS数据集上的现有工作，同时其计算效率提高了约10倍。全面的消融研究证明了我们设计的有效性。

上面的动态图是三维场景理解(3D scene understanding)。

3D-BoNet算法优势：

3D-BoNet能明确地预测目标的边界框，因此最终学习的实例具有更好的客观性。

3D-BoNet不需要区域提议网络、roalign等复杂、耗时的操作，因此不需要NMS等后期处理步骤。

3D-BoNet由非常有效的共享MLP组成，不需要后处理步骤，例如非最大抑制、特征采样、聚类或投票，因此它非常有效。

预览

3D BoNet的整体框架如下图所示。它主要由

1）实例级边界框预测；

2）点水平掩模预测；

由两个分支组成。

顾名思义，边界框预测分支用于预测点云中每个实例的边界框，掩码预测分支用于预测边界框中的点的掩码，以进一步区分边界框中的点属于实例还是背景。

图1：用于在3D点云上进行实例细分的3D-BoNet框架。

首先，我们可以回顾一下proposal-based的方法如何生成边界框？没错，根据锚，区域建议网络（RPN）被用来生成大量密集的边界框，然后进一步细化，但这显然不够有效，是否真的有必要生成这么多密集的边界框？针对这个问题，我们可以做一个大胆的假设：否则，让每个实例回归一个唯一的、但可能不那么精确的边界框，而不是RPN。

图2：粗糙实例框。

考虑到三维点云本身明确地包含了每个目标的几何信息，我们认为这个目标是可行的。然后再大胆一点，或者尝试用全局特性直接回归每个实例的边界框？如果能做到这一点，这个问题就不能一分为二地解决吗？

但新问题又来了。

首先，每个3D场景中包含的实例数量不同（网络如何自适应地输出不同数量的边界框？），并且每个点云中的实例仍处于无序状态。这意味着，即使我们将一系列的边界盒与网络进行回归，也很难将这些边界盒与地面真理的边界盒一一关联起来。进一步的问题是我们无法实现有监督的网络训练和优化。

在这一点上，核心问题变成：我们应该如何训练这个网络？

针对这一问题，我们提出了一个边界框关联层和多准则损失函数来实现网络训练。也就是说，我们必须将预测的边界框和地面真值边界框之间的关联（配对）问题建模为一个最优分配问题。

图3：3D-BoNet框架的一般工作流程。

如何关联？

为了使网络预测的每个边界框与ground truth 的边界框唯一关联，我们将其建模为一个最优分配问题。假定A 是一个二值(binary)关联索引矩阵，当且仅当第个预测的边界框分配给ground truth的边界框时。C 是关联代价矩阵，代表将第个预测的边界框分配给ground truth的边界框的关联代价。一般来说，代表两个边界框的匹配程度，两个边界框越匹配也即代价越小。因此，边界框的最优关联问题也就转变成为寻找总代价最小的最优分配索引矩阵 A 的问题，用公式表示如下:

如何计算关联代价矩阵C

为了测量两个三维边界框之间的匹配程度，最简单和直观的评价指标是比较两个边界框的最小顶点和最大顶点之间的欧几里德距离。然而，考虑到点云通常在三维空间中非常稀疏且分布不均匀，如图4所示，尽管候选框2（红色）和候选框1（黑色）以及地面真值边界框0（蓝色）都具有相同的欧氏距离，但框2显然具有更多的有效点（重叠更多）。因此，在计算成本矩阵时，还应考虑有效点的覆盖。

图4：稀疏的输入点云。

为此，我们考虑以下三个指标：

（1）顶点之间的欧几里德距离：第个预测的边界框分配给ground truth的边界框的代价为:

（2） Soft IoU：给定输入点云P和ground truth 真相实例边界框我们可以直接得到一个硬二元向量描述每个点是否在边界框内。但是，对于相同的输入点云P的第预测框,直接获得相似的硬二元向量将导致不可微(non-differentiable)。

因此，我们引入一个可微但简单的算法来获得一个相似但软的二元向量，称为pred-box概率中的点。所有值都在范围内(0,1)。值越高，点在框中的可能性就越大。值越小，对应的点可能离框越远。因此，我们定义第一预测的边界框和地面真值的边界框的sIoU如下：

公式中和代表和的第值

（3）交叉熵。此外，我们还考虑了和之间的交叉熵。交叉熵倾向于获得具有更高覆盖率的更大边界框：

综上所述，指标（1）使学习到的盒子尽可能与地面真值的边界框重合，指标（2）（3）用于覆盖尽可能多的点，克服不均匀性。第一预测的边界框和ground truth的边界框的最终相关代价为：

损失函数是如何定义的？

通过边界框关联各层后，利用相关指数矩阵A将预测的边界框B及其对应的得分与ground truth进行匹配，使靠前的T的边界框（ground truth边界框总数）和边界框与ground truth真值匹配。

对于边界框得分预测，我们使用另一个损失函数。

预测盒得分旨在表征相应预测盒的有效性。

通过关联的索引矩阵A重新排序后，我们将前T个真实边界框对应的分数设置为1，将其余H-T无效边界框对应的分数设置为0。

我们将交叉熵损失用于此二元分类任务：

作为另一个并行分支，我们的方法可以使用任何现有的点云语义分割算法（如Sparseconv、++等）作为相应的语义分割模块。整个网络的最终损失函数定义为:

表示语义分段分支的丢失。这里我们使用标准交叉熵。网络的具体优化求解过程采用Hungarian算法。

如何预测实例掩码？

与边界框预测分支相比，这个分支相对简单，因为只要边界框预测足够好，这个分支就相当于做了一个二值分类问题，即使你盲目猜测，它也可以有50%的准确率。在这一分支中，我们将特征点与每个边界框和分数进行融合，然后为每个实例预测一个点级二值掩码。考虑到背景点和实例点之间的不平衡，我们使用焦点损失来优化该分支。