Abstract
MV3D,融合LIDAR 点和RGB图像作为输入,预测3D边框。网络由两个子网络组成,一个是三维物体方法生成,另一个是多视角特征融合。
Introduction
Laser有准确的深度信息,RGB图片有详细的语义信息。
LIDAR有更准确的位置信息,Image有更准确的2D边框评价信息。
MV3D网络:网络利用bird's eye view,front view of LIDAR点云和二维i图像作为输入,它首从BEV中提取三维物体特征,将它们投影于BE,FV和image prososal三个方面。一个深度融合网络通过将ROI池化得到的基于范围的特征融合。
IOU用于bounding box检测,将预测范围同人为标注范围作比,重合范围越大,精确度越高。
IOU
MV3D Network
通过将三维点云投射到鸟瞰图和前视图。
Bird’s Eye View Representation
BEV通过高度、强度、密度表达,我们将三维点云投射为2D网格,在每个单元中,最高点的高度代表整个单元的高度,为了让高度信息更具体,我们将点云划分成M片,取得每一片的高度信息。强度特征是每个单元中每个最高点的反射值。密度表示每个单元中点的数量。BEV编码成(M+2)-channel个特征
Front View Representation
LIDAR点云信息十分稀疏,投射到二维平面上时同样十分稀疏。相反,我们把它投影到一个圆柱形平面,生成深度前景图,有高度、距离和强度三个信息。 FVR.png3.2. 3D Proposal Network
我们使用鸟瞰图作为输入。在3D物体检测中,BEV相比于前视图/图像平面有几个优点。首先,物体投射到BEV时,保持了物体的物理尺寸,从而具有较小的尺寸方差,这在前视图/图像平面的情况下不具备的。第二,在BEV中,物体占据不同的空间,从而避免遮挡问题。第三、在道路场景中,由于目标通常位于地面平面上,并在垂直位置的方差较小,鸟瞰图定位在获得准确的3Dbounding box是很重要的。因此,使用BEV作为输入,可以确保3D位置预测更可行。
给出一个BEV,网络生成3D候选框。每个3D框的参数有(X,Y,Z,L,W,H),表示在激光雷达坐标系中3D侯选框的中心和尺寸(米)。对于每个3D前置框,相应的鸟瞰锚(Xbv,Ybv、Lbv、Wbv)可以通过离散的(X,Y,L,W)获取。我们设计N个3D前置框通过在训练集的地面真实目标大小聚类获得。在机动车检测的情况下,前置框(L,W)的值分别为{(3.9,1.6),(1.0,0.6)},和高度h是固定值1.56米。通过旋转鸟瞰锚90度(围着锚x,y的坐标中心),可以得到n = 4个前置框。(x,y)为BEV特征图中的坐标,Z可以根据摄像机高度和物体高度来计算。在区域产生中不做方向回归,而把它留给下一个预测阶段。3D框的方向限制在{ 0◦,90◦},这是接近实际的取向大部分道路场景中的物体。这种简化使回归训练更容易。
采用0.1米的离散分辨率,目标框在鸟瞰中仅占5∼40个像素点(最大约相当于0.015米)。检测这些非常小的物体仍然是一个困难的问题。一种可能的解决方案是使用更高的分辨率的输入,然而,将需要更多的计算。我们选择特征图上进行上采样操作。我们用2倍的双线性上采样操作在网络的最后一个卷积层后。前端卷积层中只进行3次池化运算,即8倍的下采样。因此,结合2倍的反卷积操作,特征图被送到区域提名网络时只有相对于鸟瞰图输入的4倍下采样后的图。
网友评论