美文网首页
【论文阅读】Deep Continuous Fusion

【论文阅读】Deep Continuous Fusion

作者: 爱叫啥叫啥去 | 来源:发表于2020-05-18 18:06 被阅读0次

    https://blog.csdn.net/u011507206/article/details/88908062

    https://blog.csdn.net/weixin_43278491/article/details/88188783


    1、Introduction

       最近,有几种方法试图共同利用相机和激光雷达。 在[26,4]中,使用相机视图生成建议,而使用LIDAR进行最终3D定位 。但是,这些级联方法并未利用对多传感器输入进行联合推理的能力。结果,3D检测性能受到仅2D图像检测步骤的限制。其他方法[6、18、8]在相机图像和LIDAR鸟瞰图(BEV)表示上都应用了2D卷积网络,并通过特征级联将它们融合在中间区域卷积特征图上。这种融合通常发生在粗糙的水平上,具有明显的分辨率损失。因此,设计能够更好地利用多种模态的3D探测器仍然是一个未解决的问题。挑战在于,激光雷达点稀疏且连续,而相机在离散状态下捕获密集特征。 因此,融合它们并非易事。

    在本文中,我们提出了一种3D对象检测器,该检测器可以鸟瞰(BEV)并通过学习将图像特征投影到BEV空间中来融合图像特征。为了实现这一目标,我们设计了一种端到端的可学习架构,该架构利用连续卷积在不同分辨率级别融合图像和LIDAR特征图。所提出的连续融合层能够在两种模态下的位置之间编码密集的精确几何关系。这使我们能够基于多个传感器设计新颖,可靠且高效的3D对象检测器。 我们在KITTI [11]和大型3D对象检测基准[37]上的实验评估显示,与现有技术相比,已有重大改进。

    2、Related Work

    基于激光雷达的检测:最近已经提出了几种检测器,以从3D传感器产生精确的定位。VeloFCN [20]将LIDAR点投影到正视图,并在正视图表示上应用2D全卷积网络以生成3D检测。3DFCN [19]利用LIDAR的鸟瞰图表示并应用3D全卷积网络。PIXOR [37]对高度编码的鸟瞰图表示进行单阶段,无提议的检测。DPT [24]在单个网络内共同进行检测,跟踪和短期未来预测。

    联合Camera-3D传感器检测:在过去的几年中,许多技术共同探索了相机和3D传感器来执行3D推理。一种常见的做法是执行基于深度图像的处理,该处理将3D几何形状编码为附加图像通道[32、13、15]。例如,[15]提出了一种新颖的深度图像地心嵌入方法,并且通过与RGB图像特征相结合,可以实现显著的改进。但是,这些方法的输出空间在相机图像平面上。在自动驾驶的情况下,这是不希望的,因为我们希望在3D空间中定位对象。为了产生3D模态对象边界框,还必须付出额外的努力。另一种想法是使用体素化,并将体素中的彩色图像视为其他通道[34、35]。但是,这在存储和计算方面效率不高,并且由于透视投影,颜色信息在许多体素上丢失了。其他方法利用一种传感器模态生成边界框建议,而另一种方法进行最终分类和回归。例如,[4]利用深度图来生成3D对象建议,并使用图像执行框分类。另一方面,F-Pointnet [26]使用相机生成2D建议,而PointNet [27]使用2D边界框产生的视锥中直接预测3D形状和位置。[6]MV3D建议通过ROI合并在多个视图中融合来自多个传感器的功能。 但是,在这种基于粗糙区域的合并方案中,丢失了准确的几何信息。

    在3D点云上的卷积:我们的方法还与像点运算符一样在点云上进行可学习卷积的工作线有关。图(卷积)神经网络[31、17、2]将每个点视为图中的一个节点,而通过空间邻近性构建边缘。在节点之间发送消息以传播信息。另一类方法直接在点或3D网格上设计卷积[36、33、25、1]或合并运算符[27、28]。这些方法功能更强大,能够在不损失准确性的情况下对几何关系进行编码。 我们提出的连续融合层可以视为连接不同模态之间的点的特殊情况。

    3、Multi-sensor 3D Object Detection

    近来,一些工作[19、38、39、18、6、5]通过在BEV中执行3D对象检测显示了非常有希望的结果。这些探测器很有效,因为BEV可以保持3D传感器(如LIDAR)固有的结构。结果,可以容易地训练卷积网络,并且可以利用诸如对象大小之类的强大先验。由于大多数自动驾驶汽车都配备了激光雷达和摄像头,因此需要在这些模式之间进行传感器融合,以进一步提高性能。

    在LIDAR和图像之间融合信息并非易事,因为图像代表了世界在相机平面上的投影,而LIDAR则捕获了世界上原始的3D结构。一种可能性是将LIDAR点投影到图像上,附加一个带有深度信息的额外通道并加以利用传统的2D检测架构。 在图像空间中进行推理时(例如[32、15、9]),这已被证明非常有效。 不幸的是,为了从2D输出获得3D检测,必须执行第二步。

    相反,在本文中,我们执行相反的操作。我们利用卷积网络提取的图像特征,然后将图像特征投影到BEV中,并将其与基于LIDAR的检测器的卷积层融合。由于图像特征发生在不连续的位置,因此这种融合操作并非易事。 因此,需要“插值”以创建密集的BEV特征图。为了执行此操作,我们利用连续卷积[36]从BEV空间中每个点的最近对应图像特征中提取信息。我们的总体架构包括两个流,其中一个流提取图像特征,而另一个流则从LIDAR BEV中提取特征。 我们设计连续融合层在两侧桥接多个中间层,以便在多个规模上执行多传感器融合。这种架构使我们能够根据自动驾驶应用的需要,在BEV空间中生成最终的检测结果。我们请读者参考图1来说明我们的体系结构。在本节的其余部分,我们将首先回顾连续卷积,然后说明如何利用它们来融合来自LIDAR和图像的信息。 之后,我们提出了使用这种新的连续融合层的深度多传感器检测架构。

    相关文章

      网友评论

          本文标题:【论文阅读】Deep Continuous Fusion

          本文链接:https://www.haomeiwen.com/subject/laplohtx.html