Abstract
这个方法的关键挑战是如何高效定位大场景点云中的物体。我们的想法用到了2D物体检测器和先进的3D深度学习来定位物体。
可以在有很强的遮蔽或稀疏点的情况下预测。
Introduction
本文中,我们研究了一种最重要的3D感知任务——3D物体检测,区分物体类别,从3D传感器数据中预测物体的3D边框方向。
PointNets:It is unclear how this architecture how this architecture can be used for instance-level 3D object detection.
Key challenge:怎样高效的在3D 空间中定位3维物体。
在本工作中,我们减少了search space 遵循维度减少原则。
Related Work
3D Object Detection from RGB-D Data
Front Object Detection from RGB-D Data以单眼RGB图像和形状先验或遮挡模式来推断三维边界框,将深度数据表达为2D maps然后用CNN来定位2D图像中的物体。相较之下,我们把深度表达成点云,然后用先进的3D deep network(PointNets)可以更高效的操作3D 图像。
Bird's eye view based methods这种算法在检测小物体时效果不好,像行人和自行车,不能容易地适应在垂直方向上有多个物体的场景。
3D based methods3D 卷积和大范围3D空间search is expensive.
Deep Learning on Point CloudsPointNets 适用于单个物体检测和语义分割,我们的工作是探索怎样扩展PointNets的结构去检测3D物体。
3.Problem Definition
深度数据,用RGB相机坐标点云表达。Projection matrix是已知的,所以我们可以从2D图像中得到3D圆台体。
4.3D Detection with Frustum PointNets
4.1 Frustum Proposal
利用已知的相机投影矩阵,一个2D bounding box 可以形成frustum,然后从frustum point cloud中收集所有点。
转动frustums朝向中心视觉,使坐标和图像平面正交。
我们采用FPN based model
4.2.3D Instance Segmentation
物体在物理空间中是自然分散的,三维点云的分割更加自然和简单,相较二维图像中的像素很容易和远处的物体混在一起。
3D Instance Segmentation PointNet
4.3. Amodal 3D Box Estimation
Learning-based 3D Alignment by T-Net
网友评论