美文网首页
【论文阅读】AVOD

【论文阅读】AVOD

作者: 爱叫啥叫啥去 | 来源:发表于2020-05-23 10:11 被阅读0次

    https://blog.csdn.net/AaronYKing/article/details/86378713

    https://www.zybuluo.com/snowying/note/1265054


    在本文中,我们旨在通过提出AVOD(一种用于自动驾驶的聚合视图对象检测架构)来解决这些困难(图2)。所提出的架构贡献如下:

    1、受特征金字塔网络(FPNs)的启发[5],我们提出了一个新颖的特征提取器,能够从激光雷达点云和RGB图像生成高分辨率特征映射,从而可以定位自动驾驶场景中的小目标类别

    2、我们提出了一个特征融合区域建议网络(RPN),其利用多模态为小目标类别生成高召回率的区域建议。

    3、我们提出了一个新颖的3D边缘盒编码方案,其遵从边缘盒几何约束,允许更高的3D定位精度。

    4、所提出的神经网络架构在RPN阶段利用1x1卷积,伴随着一个3D锚框投影的固定查找表,从而保持检测性能的同时能够实现高计算速度和低内存占用。

    related works

    1、用于区域提议生成的手工特征:在区域建议网络(RPNs)出现之前,3D区域建议生成算法通常使用手工制作的特征来生成一个小的候选框集合,用于检索3D空间中的大多数目标。本文使用区域建议网络来学习BEV和图像空间的特征,以有效的方式生成更高质量的区域建议。

    2、无区域建议的单发检测器: 单步目标检测器也被提出用于无RPN架构3D物体检测任务。 VeloFCN[3]将LIDAR点云投射到前视图,将该视图用作全卷积神经网络的输入,以直接生成密集的3D边界框。 3D-FCN[8]通过在由LIDAR点云构造的3D体素网格上应用3D卷积来扩展这一概念,以生成更好的3D边界框。 

    3、基于单目的区域建议生成:现有先进技术中的另一个方向是使用成熟的2D物体检测器在2D中生成区域建议,然后通过模态扩展回归将其扩张到3D。 这种趋势始于[10],用于室内物体检测,它启发了基于截头锥体(Frustum)的PointNets(F-PointNet)[11],使用PointNet [12]的逐点特征代替点直方图进行范围回归。 这种方法会导致 任何错过的2D检测都将导致错过3D检测,因此,在这种极端条件下这些方法的泛化能力尚未得到证实。

    4、基于单目的3D物体检测器:利用成熟的2D物体检测器的另一种方式是使用先验知识仅从单眼图像执行3D物体检测。

    5、3D区域建议网络:以前在[15]中提出了用于从RGBD图像进行3D目标检测的3D RPN。然而,根据我们的了解,MV3D[4]是唯一提出针对自动驾驶场景的3D RPN的架构。 MV3D通过将BEV特征图中的每个像素对应多个先前的3D锚点,将基于图像的Faster R-CNN[2]中的RPN扩展到3D。然后将这些锚点馈送到RPN以生成3D区域建议,用于从BEV创建视图特定的特征裁剪。深度融合方案用于组合来自这些特征裁剪的信息以产生最终的检测输出。但是此RPN结构不适用与BEV中的小目标实例。

    我们的RPN架构旨在融合图像中的全分辨率特征裁剪和BEV特征图作为RPN的输入,从而为尺寸较小的类生成高召回的区域建议。此外,我们的特征提取器提供了全分辨率的特征映射,这些特征映射在检测框架的第二阶段显示出了对小目标的定位准确性极大地帮助。

    AVOD architecture

    1、从点云和图像生成特征映射:按照MV3D的程序从0.1米分辨率的点云的体素网格表示生成六通道BEV图。点云在[-40,40] × [0,70]米处被裁剪,以包含摄像机视野内的点。BEV图的前5个通道使用每个网格单元中的点的最大高度进行编码,从沿Z轴的[0,2.5]米之间的5个等分切片生成。第六个BEV通道包含了每个单元通过公式min\left(1.0, \frac{\log\left(N+1\right )}{\log16} \right )计算的点密度信息,其中N是单元中的点数。

    2、特征提取器:所提出的架构是使用两个相同的特征提取器结构,每个输入一个视角(RGB或BEV)。全分辨率特征提取器如图3所示,包括两个部分:编码器和解码器。编码器在进行了一些修改的VGG-16[17]之后建模,主要是将通道数减少一半,并在conv-4层切断网络。因此编码器将M × N × D的图像或BEV图作为输入,并产生\frac{M}{8}​ \times  \frac{N}{8}​ \times D^{*}的特征图F. F具有高层语义表达能力,但与输入相比分辨率低8倍。在BEV中,KITTI数据集中的行人大小平均占0.8 × 0.6米。这转换到BEV图中对应分辨率为0.1米的8×6的像素区域。下采样8倍导致这些小目标类在输出特征图中占据不到一个像素,这没有考虑由卷积引起的感受野的增加。受特征金字塔网络(FPN)[18]的启发,我们创建了一个自下而上的解码器,学习将特征映射上采样回原始输入大小,同时保持运行时速度。解码器将编码器的输出F作为输入,并产生新的M × N × \widetilde{D}特征图。下图展示了由解码器执行的操作,其包括通过卷积反转操作对输入进行上采样,来自编码器的对应特征图的级联,以及最后通过3 × 3卷积操作来对两者进行融合。最终的特征图具有高分辨率和代表性的能量,并且由RPN和第二级检测网络共享。

    3、多模态融合区域建议网络:类似于2D两阶段检测器,所提出的RPN回归了一组先验3D框与真实值之间的差异。 这些先验的框被称为锚框,并且使用图4中所示的轴对齐的边界框编码来编码。锚框通过中心(tx​,ty​,tz​)和轴对齐的宽度(dx​,dy​,dz​)来参数化。 为了生成3D锚网格,在BEV中以0.5米的间隔对(tx​,ty​)对进行采样,而tz​根据传感器在地平面上方的高度来确定。 通过聚类每个类的训练样本来确定锚的每一维的尺寸。通过整合图像, 在BEV中不存在的3D点的锚点被有效地移除,最终每帧生成80-100K个非空锚点。

    通过多视图裁剪和调整大小操作提取特征裁剪:要从特定视图的特征映射中提取每个锚点的特征裁剪,我们使用裁剪和调整大小操作[19]。 给定3D中的锚点,通过将锚点投影到BEV和图像特征图上来获得两个感兴趣区域。 然后使用相应的区域从每个视图中获得裁剪结果,然后将其双线性地调整为3×3以获得等长的特征向量。这种提取方法使得特征裁剪保持两个视图中投影锚点的纵横比,提供比Faster-RCNN最初使用的3×3卷积更可靠的特征裁剪。

    通过1×1卷积层降低维度: 在某些情况下,区域提议网络需要在GPU内存中保存100K锚点的特征裁剪。 尝试直接从高维特征映射中提取特征裁剪会使每个输入视图产生大量内存开销。 例如,从256维特征映射中提取100K锚点的7×7特征裁剪需要大约5千兆字节的内存,假设32位浮点表示。 此外,利用RPN处理这种高维特征裁剪极大地增加了其计算需求。受[18]中使用的启发,我们提出应用1×1卷积核到每个视图输出的特征图上,作为一种有效的降维机制,能够学习去选择对区域建议生成贡献更大性能的特征。

    3D区域建议生成: 裁剪和调整大小操作的输出是来自两个视图的大小相同的特征裁剪,它们通过逐元素平均操作进行融合。大小为256的全连接层的两个任务的特定分支[2]使用融合的特征裁剪来回归轴对齐的目标建议框并输出目标/背景“目标性(是目标还是背景)”分数。通过计算锚框和真实值边界框之间的质心(中心)和尺寸的差异(∆tx, ∆ty, ∆tz, ∆dx, ∆dy, ∆dz)来执行3D框回归。平滑L1损失用于3D盒回归,交叉熵损失用于“目标性”的分类判断。与[2]类似,在计算回归损失时忽略背景锚框。通过计算BEV中的锚框和真实边界框之间的2D IoU来确定背景锚框。对于汽车类,IoU小于0.3的锚框被认为是背景锚框,而IoU大于0.5的锚被认为是目标锚框。对于行人和骑自行车两类,目标锚框IoU阈值减少到0.45。为了删除冗余区域建议,在训练期间BEV中IoU阈值为0.8的采用2D非极大抑制(NMS)来保留前1024个区域建议。在推理时,300个区域建议被用于汽车类,而1024个区域被保留给行人和骑自行车的人。

    4、第二阶段检测网络:

    3D边界框编码: 在[4]中,陈等人声称8角盒编码提供了比[15]中先前提出的传统轴对齐编码更好的结果。但是,8角编码没有考虑3D边界框的物理约束,即边界框的顶角需要强制与底部的顶角对齐。为了减少冗余并保持这些物理约束,我们提出使用四个角和两个高度值对边界框进行编码,这两个高度值表示从传感器高度确定的地平面的顶部和底部角点偏移。因此,我们的回归目标是(∆x1…∆x4, ∆y1…∆y4, ∆h1, ∆h2),区域建议区域与真值标注框之间的基于地平面的角点和高度偏移。为了确定角点偏移,我们将区域建议框的最近角点对应于BEV中真值框的最近角点。所提出的编码将框表示从过度参数化的24维向量减少到10维向量。

    显式的方向向量回归: 为了确定来自3D边界框的方向,MV3D[4]依赖于估计的边界框的范围,其中方向向量被假定为在框的较长边的方向上。这种方法存在两个问题。首先,对于不总是遵守上述规则的检测目标,例如行人,该方法失败。其次,所得到的取向仅为已知的±π弧度的附加常数。由于最近的角点到角点匹配未保留角点顺序,因此方向信息丢失。图1给出了相同矩形边界框如何包含具有相反方向矢量的一个目标的两个实例的示例。我们的架构通过计算(xθ, yθ) = (cos(θ),sin(θ))来解决这个问题。该定向矢量表示隐含地处理了角度的一个包装,因为每个θ∈[-π,π]可以表示BEV空间中的唯一单位向量。我们使用回归的方向向量来解决从采用的四角表示中的边界框方向估计的模糊性,因为实验上发现这比直接使用回归方向更准确。具体来说,我们提取边界框的四个可能的方向,然后选择最接近显式回归方向向量的方向.

    生成最终检测: 与RPN类似,多视图检测网络的输入是通过将区域建议投影到两个输入视图中而生成的特征裁剪。由于建议框的数量比锚框的数量低一个数量级,因此使用深度为D˜\widetilde{D}D = 32的原始特征图来生成这些特征裁剪。来自两个输入视图的裁剪调整为7×7,然后逐元素取平均操作进行融合。一组大小为2048的三个全连接层处理融合后的特征裁剪,以输出每个建议框的框回归、方向估计和类别分类。与RPN类似,我们采用多任务损失,将边界框和方向向量回归任务的两个平滑L1损失与分类任务的交叉熵损失相结合。如果他们在BEV中与汽车或者行人/骑自行车人的类别的真值框分别至少有0.65或0.55 2D IoU,则评估回归损失时才考虑这些区域建议。NMS使用0.01的阈值去删除重叠检测。

    5、训练

    我们训练两个网络,一个用于汽车类,一个用于行人和自行车两类。RPN和检测网络用小批量样本以流行的端到端方式进行联合训练,样本中每一张图分别包含512和1024个感兴趣区域(ROIs)。网络使用ADAM优化器进行120K次迭代训练,初始学习率为0.0001,以0.8的衰减因子每隔30K次迭代进行一次指数级衰减。

    相关文章

      网友评论

          本文标题:【论文阅读】AVOD

          本文链接:https://www.haomeiwen.com/subject/ehjpohtx.html