美文网首页
3d目标检测调研

3d目标检测调研

作者: 加油11dd23 | 来源:发表于2021-12-14 15:31 被阅读0次

在达摩院做3d目标检测,简单调研一下。

一、大纲

1、定义

使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。

  • 输出format [ x, y, z, w, h, l, Θ,Φ,Ψ ]

2、需求

在无人驾驶、机器人、增强现实的应用场景下,普通2D检测并不能提供感知环境所需要的全部信息,2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度,但是在真实的三维世界中,物体都是有三维形状的,大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图Fig.1中,在自动驾驶场景下,需要从图像中提供目标物体三维大小及旋转角度等指标,在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。

  • 基于RGB 的单目目标检测
  • 基于RGB-D 的单目目标检测
  • 基于激光点云的3d目标检测
  • 基于RGB 的双目目标检测
  • 基于RGB-D 的双目目标检测

二、基于RGB 的单目/双目目标检测

image.png
  • Templates Matching based Methods.
    region proposals
  • Geometric Properties based Methods.
    先进行2d检测,后将2d框转换为3d检测框
  • Pseudo LiDAR based Methods.
    生成伪点云,后用点云方法处理
    通过计算视差将图像坐标投影回3D空间,以模拟激光雷达信号(以下称为伪激光雷达),然后采用高性能的基于点云的方法

1、Templates Matching based Methods.

(1)、3DOP

3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法,其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15,出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好,且远远达不到实时性,因此其处理一张图片的时间达到了4.0s。


它使用一个立体图像对作为输入来估计深度,并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题,该问题涉及精心设计的势函数(例如,目标尺寸先验、地平面和点云密度等)。

随着获得了一组不同的3D目标的候选框,3DOP利用FastR-CNN[11]方案回归目标位置。

(2)、Mono3D
(3)、Deep MANTA

2、Geometric Properties based Methods.

(1)、Deep3DBox
(2)、GS3D
(3)、Stereo R-CNN
(4)、FCOS3D: Fully Convolutional One-stage Monocular 3D Object Detection (1st place of NIPS 2020 vision-only nuScenes 3D detection)

论文主要基于FCOS无锚点2D目标检测做的改进,backbone为带有DCN的ResNet101,并配有FPN架构用于检测不同尺度的目标,网络结构如图1所示:

3、Pseudo LiDAR based Methods.

(1)、MF3D
(2)、Mono3D-PLiDAR
(3)、Stereo R-CNN

三、基于点云 的3D目标检测

image.png

四、多元信息融合进行3d目标检测

五、评价指标

  • bbox:2D检测框的准确率
  • 3d: 3D检测框的准确率
  • bev: BEV视图下检测框的准确率
  • aos: 检测目标旋转角度的准确率

1、Rotated Intersection over Union (IoU3D)

image.png
image.png

2、AP

基于iou 3d,可以定义出TP和FP

  • TP with IoU ≥ threshold
  • otherwise is FP
  • an undetected ground-truth bounding box is regarded as False Negative (FN).
  • Note that true negative (TN) does not apply since there exist infinite possible candidates.
    (KITTI, the threshold is set to 0.7 for car, 0.5 for pedestrians 0.5 for pedestrians)
  • IoU(Intersection over union):交并比IoU衡量的是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积的比例。在目标检测中,如果模型输出的结果与真值gt的交并比 > 某个阈值(0.5或0.7)时,即认为我们的模型输出了正确的结果。
  • Precision :检索出来的条目中有多大比例是我们需要的。
  • Recall:我们需要的条目中有多大比例被检索出来了。
  • AP(Average Precision):平均精准度,对Precision-Recall曲线上的Precision值求均值。
image.png

通过绘制精确性×召回率曲线(PRC),曲线下的面积往往表示一个检测器的性能。然而,在实际案例中,"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案,直接规避了计算方法。

六、常用数据集

1、KITTI:单目,双目,雷达点云

  • The KITTI 3D object detection benchmark [16] is divided into 7,481 training samples and 7,518 testing samples. The training samples are commonly divided into a train set (3,712 samples) and a val set (3,769 samples) following [10], which is also adopted her
  • 80 epochs on the KITTI dataset
  • a NVIDIA Tesla V100 (32G) GPU.

2、Waymo:单目,双目,雷达点云

  • consists of 798 training sequences and 202 validation sequences. The dataset also includes 150 test sequences without ground truth data. The dataset provides object labels in the full 360◦field of view with a multi-camera rig. We only use the front camera and only consider object labels in the front-camera’s field of view (50.4◦) for the task of monocular object detection, and provide results on the validation se- quences. We sample every 3rd frame from the training sequences to form our training set (51,564 samples) due to the large dataset size and high frame rate
  • 10epochs on the Waymo Open Datase
  • a NVIDIA Tesla V100 (32G) GPU.

3、nuScenes :单目,双目,雷达点云

NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall 1.4M annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.

image.png

相关文章

  • 3d目标检测调研

    在达摩院做3d目标检测,简单调研一下。 一、大纲 1、定义 使用RGB图像、RGB-D深度图像和激光点云,输出物体...

  • 3D目标检测深度学习方法中voxel-represetnatio

    作者:蒋天园来源:公众号@3D视觉工坊链接:[3D目标检测深度学习方法中voxel-represetnation内...

  • iOS 常见耗电量检测方案调研

    iOS 常见耗电量检测方案调研 iOS 常见耗电量检测方案调研

  • CenterNet网络精读与分析

    近期CVPR2019的最新论文CenterNet在一篇文章中就提出了一个能够解决目标检测、姿态检测、3D单目检测的...

  • 单目3D目标检测

    单目相机只能获取平面图像,如何能进行3D目标检测呢?在vSLAM领域,我们可以根据单目相机的运动模型对周围环境进行...

  • ECCV20 3D目标检测新框架3D-CVF

    作者:蒋天园来源:公众号@3D视觉工坊链接:ECCV20 3D目标检测新框架3D-CVF 前言 这一篇文章主要介绍...

  • ARKit碰撞检测

    用ARKit做碰撞检测,其实也就是做3D碰撞检测。3D碰撞检测需要涉及到比较复杂的数学知识,还好SceneKit给...

  • 模型检测调研

    CTL 计算树逻辑 路径量词A (所有路径)E(某些计算路径) 时序运算符:描述某路径的具体性质X 下一个时间F ...

  • 目标检测(上)

    一、目标检测概述 什么是目标检测? 目标检测不仅要在图像中找出目标物体,还要标记出其具体位置。目标检测.png 目...

  • 目标检测

    综述 基于深度学习的目标检测学习总结 faster-rcnn系列文章 faster-rcnn Python 实现版...

网友评论

      本文标题:3d目标检测调研

      本文链接:https://www.haomeiwen.com/subject/aanefrtx.html