论文及资料收集
斯坦福学者首次提出直接处理三维点云的深度学习模型
VoxelNet: 基于点云的三维空间信息逐层次学习网络
Volumetric and Multi-View CNNs for Object Classification on 3D Data
VoxNet: A 3D Convolutional Neural Network for real-time object recognition
3D ShapeNets: A Deep Representation for Volumetric Shapes
CVPR 2017 PointNet PointNet++
How to implement a YOLO (v3) object detector from scratch in PyTorch: Part1
英文摘要翻译
3D Lidar-based static and moving obstacle detection in driving environments: An approach based on voxels and multi-region ground planes
在自动驾驶的情况下,人工感知是智能系统将感知数据转换成车辆周围环境的有效模型的过程。在本文中,考虑到安装在智能车辆上的3D-LIDAR的数据,提出了一种基于体素和平面的三维感知系统,用于城市环境中的地面建模和障碍物检测。该系统包含时间相关数据,由两个主要模块组成:(i)使用分段平面拟合算法和RANSAC方法的有效地面估计,以及(ii)静态和移动障碍物的体素网格模型使用判别分析和自我运动信息进行检测。该感知系统直接应用于智能车辆的安全系统,特别是在避免碰撞和易受伤害的道路使用者检测中,即行人和骑车者。使用来自Velodyne LIDAR的点云数据和来自惯性导航系统的定位数据的实验用于静态/移动障碍物检测模块和表面估计方法的定量和定性评估。使用KITTI数据库的实验报告的结果证明了所提方法在城市情景中的适用性和效率。
Very High Frame Rate Volumetric Integration of Depth Images on Mobile Devices
体积方法提供了将多个深度图像集成到完整3D模型中的高效,灵活和简单的方法。它们提供密集和逼真的3D重建,并且GPU上的并行化实现可在现代图形硬件上实现实时性能。然而,在移动设备上运行这样的方法,为用户提供移动自由和瞬时重建反馈仍然是具有挑战性的。在本文中,我们对基于体素块散列的现有体积积分方法进行了一系列修改,大大提高了它们的性能并使其适用于平板电脑应用。我们提出(i)对基本数据结构及其分配和集成的优化; (ii)高度优化的光线投射管道; (iii)扩展相机跟踪器以合并IMU数据。因此,我们的系统总体上可以在Nvidia Shield平板电脑上实现47 Hz的帧速率,在Nvidia GTX Titan X GPU上实现910 Hz的帧速率,甚至超过1.1 kHz,无需可视化。
LIDAR-based 3D Object Perception
本文描述了一种基于激光雷达的地面机器人移动感知系统,包括三维物体检测,分类和跟踪。所提出的系统在我们的自动地面车辆上进行了演示MuCAR-3,使其能够在类似城市交通的场景以及越野车队场景中安全导航。我们的方法的效率源于2D和3D数据处理技术的独特组合。尽管在2.5D占用网格中将点云快速分割成对象,但是在原始3D点云上对对象进行分类。对于域的快速切换,占用网格被增强以充当用于检索3D点的哈希表。与大多数现有的3D点云分类工作相比,实时操作通常是不可能的,这种组合使我们的系统能够以0.1s的帧速率实时执行。
Kinect v2 for Mobile Robot Navigation: Evaluation and Modeling
随着Microsoft Kinect for Windows v2(Kinect v2)的推出,机器人和计算机视觉研究人员可以使用令人兴奋的新传感器。与原始Kinect类似,传感器能够以高速率获取准确的深度图像。这对于机器人导航很有用,因为可以创建密集且健壮的环境地图。 Kinect v2与采用结构光技术的原始Kinect相反,基于飞行时间测量原理,也可在室外阳光下使用。在本文中,我们评估了Kinect v2深度传感器在移动机器人导航中的应用。给出了校准固有摄像机参数的结果,并检查了深度传感器的最小范围。我们在阴天和阳光直射的情况下分析室内和室外测量的数据质量。为此,我们在轴向和横向方向上为Kinect v2传感器引入了经验导出的噪声模型。噪声模型考虑了测量距离,观察表面的角度和日照入射角。这些模型可用于后处理,以过滤各种应用的Kinect v2深度图像。
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
点云是一种重要的几何数据结构。由于其不规则的格式,大多数研究人员将这些数据转换为常规3D体素网格或图像集合。 然而,这会使数据不必要地大量增加并导致问题。在本文中,我们设计了一种直接消耗点云的新型神经网络,它很好地尊重了输入点的置换不变性。我们的网络名为PointNet,为从对象分类,部分分割到场景语义分析等应用程序提供统一的体系结构。 虽然简单,但PointNet非常高效和有效。根据经验,它表现出与现有技术水平相当甚至更好的强劲表现。从理论上讲,我们提供分析,以了解网络学到了什么,以及网络在输入扰动和腐败方面的稳健性。
PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
以前很少有人研究点集的深度学习。 PointNet[20]是这方面的先驱。但是,根据设计,PointNet不会捕获由度量空间点所引发的局部结构,从而限制了识别细粒度模式的能力以及对复杂场景的普遍性。在这项工作中,我们引入了一个分层神经网络,它将PointNet递归地应用于输入点集的嵌套分区。通过利用度量空间距离,我们的网络能够通过增加上下文比例来学习局部特征。通过进一步观察,通常采用不同密度对点集进行采样,这导致对均匀密度训练的网络的性能大大降低,我们提出了新的集合学习层,以自适应地组合来自多个尺度的特征。实验表明,我们的网络PointNet++能够高效,稳健地学习深度点集功能。特别是,在具有挑战性的3D点云基准测试中,结果明显优于现有技术。
PointCNN
我们提供了一个简单而通用的点云特征学习框架。 CNN成功的关键是卷积运算符,其能够利用在网格(例如图像)中密集表示的数据中的空间局部相关性。然而,点云是不规则和无序的,因此对于与点相关联的特征而言,核心的直接卷积将导致抛弃形状信息,同时变化为顺序。为了解决这些问题,我们建议从输入点学习X变换,然后使用它来同时加权与点相关的输入特征,并将它们置于潜在的潜在规范顺序中,然后再进行元素乘积和求和运算适用。所提出的方法是将典型的CNN概括为点云的学习特征,因此我们将其称为PointCNN。实验表明,PointCNN在多个具有挑战性的基准数据集和任务上实现了与最先进方法相当或更好的性能。
Distinctive Image Features from Scale-Invariant Keypoints
本文提出了一种从图像中提取独特的不变特征的方法,该方法可用于在对象或场景的不同视图之间执行可靠的匹配。这些特征对于图像比例和旋转是不变的,并且被显示为在大范围的仿射失真,3D视点的改变,噪声的增加和照明的改变之间提供稳健的匹配。这些特征非常独特,因为单个特征可以与来自许多图像的大型特征数据库的高概率正确匹配。本文还介绍了使用这些功能进行对象识别的方法。通过使用快速最近邻居算法将各个特征与来自已知对象的特征数据库匹配,然后进行霍夫变换以识别属于单个对象的聚类,并最终通过最小二乘解决方案对一致姿势参数进行验证来进行识别。这种识别方法可以在实现近乎实时的性能的同时,在杂波和遮挡中稳健地识别物体。
PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation
最近,3D理解研究更加注重直接从点云[17,19]中提取特征。 因此,探索形状模式描述是必不可少的。 受SIFT [11]的启发,这是一个出色的2D形状表示,我们设计了一个PointSIFT模块,它对不同方向的信息进行编码,并且适应形状的比例。 具体地,定向编码单元被设计为描述八个关键定向。 因此,通过堆叠多个方向编码单元,我们可以得到多尺度表示。 大量实验表明,基于PointSIFT的框架在标准基准数据集上的表现优于最先进的方法。代码和训练模型将随本文一起发布。
Pointwise Convolutional Neural Networks
深度学习3D数据,如重建点云和CAD模型,最近获得了很多研究兴趣。然而,迄今为止尚未充分探索使用具有卷积神经网络的点云的能力。
在本文中,我们提出了一个卷积神经网络用于语义分割和三维点云的对象识别。我们网络的核心是逐点卷积,一种新的卷积运算符,可应用于点云的每个点。我们完全的卷积网络设计虽然实施起来非常简单,但可以在语义分割和对象识别任务中产生竞争准确性。
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
准确检测3D点云中的物体是许多应用中的核心问题,例如自主导航,管家机器人和增强/虚拟实体。为了将高度稀疏的LiDAR点云与区域提议网络(RPN)连接起来,大多数现有的工作都集中在手工制作的特征表示上,例如鸟瞰图投影。在这项工作中,我们不再需要针对3D点云的手动特征工程,并提出了VoxelNet,这是一种通用的3D检测网络,可将特征提取和边界框预测统一到单个阶段的端到端可训练深度网络中。具体而言,VoxelNet将点云划分为等间距的3D体素,并通过新引入的体素特征编码(VFE)层将每个体素内的一组点转换为统一的特征表示。通过这种方式,点云被编码为描述性的体积表示,然后连接到RPN以生成检测。 KITTI汽车检测基准测试的实验表明,VoxelNet在很大程度上优于最先进的基于LiDAR的3D检测方法。此外,我们的网络学习了具有各种几何形状的物体的有效辨别表示,从而在仅基于LiDAR的行人和骑车人的3D检测中产生了令人鼓舞的结果。
VoxelNet是对PointNet以及PointNet++这两项工作(会在后续文章中详细介绍)的拓展与改进,粗浅地说,是对点云划分后的Voxel使用"PointNet"。
ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)
我们训练了一个大型深度卷积神经网络,将ImageNet LSVRC-2010比赛中的120万个高分辨率图像分类为1000个不同的类别。在测试数据上,我们实现了前三和前五的错误率分别为37.5%和17.0%,这比以前的最新技术水平要好得多。具有6000万个参数和650,000个神经元的神经网络由五个卷积层组成,其中一些随后是最大池层,三个完全连接的层具有最终的1000路softmax。为了加快训练速度,我们使用了非饱和神经元和一种非常有效的卷积运算GPU实现。为了减少完全连接层中的过度拟合,我们采用了最近开发的称为“压差”的正则化方法,该方法被证明是非常有效的。我们还在ILSVRC-2012竞赛中输入了该模型的变体,并获得了15.3%的前5个测试错误率,而第二好的入门率则达到了26.2%。
SQUEEZENET: ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND <0.5MB MODEL SIZE
最近对深度卷积神经网络(CNN)的研究主要集中在提高精度上。 对于给定的准确度级别,通常可以识别达到该准确度级别的多个CNN架构。 具有相同的精度,较小的CNN架构至少提供三个优点:(1)在分布式训练期间,较小的CNN需要较少的服务器通信。 (2)较小的CNN需要较少的带宽来将新模型从云输出到自动驾驶汽车。(3)较小的CNN更适合部署在FP-GA和内存有限的其他硬件上。
为了提供所有这些优势,我们提出了一种名为SqueezeNet的小型CNN架构。 SqueezeNet在ImageNet上实现了AlexNet级精度,参数减少了50倍。
此外,通过模型压缩技术,我们能够将SqueezeNet压缩到小于0.5MB(比AlexNet小510倍)。
SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud
在本文中,我们从三维激光雷达点云的角度对道路目标进行了语义分割。我们特别希望检测和分类感兴趣的实例,例如汽车、行人和骑自行车的人。我们制定这个问题作为一个逐点分类的问题,并提出一个端到端的管道称为SqueezeSeg基于卷积神经网络(CNN):CNN需要改变激光雷达点云直接输出作为输入,并逐点地标签地图,然后精制的条件随机场(CRF)实现为复发性层。然后用传统的聚类算法得到实例级的标签。我们的CNN模型是在来自KITTI1数据集的激光雷达点云上训练的,我们的逐点分割标签来自于KITTI的3D边框。为了获得额外的训练数据,我们在广受欢迎的视频游戏《侠盗飞车V》(GTA-V)中构建了一个激光雷达模拟器,以合成大量真实的训练数据。我们的实验表明,SqueezeSeg以惊人的快速和稳定性,每帧(8.7±0.5)ms的高精度运行,高度可取的自主驾驶的应用程序。此外,对综合数据的训练可以提高对真实数据的验证准确性。我们的源代码和合成数据将是开源的。
网友评论