Abstract
为了让高度稀疏的LiDAR点云和region proposal network接合,现存方法着重于手工制作特征表达,例如BEV。在这篇论文中,我们去除了人工特征标注,提出了VoxelNet,统一特征提取,利用single stage,end to end 深度网网络。VoxelNet把点云均匀分割在3D体素,然后利用voxel feature encoding层将它们转化成标准特征表示。
Introduction
LiDAR点云稀疏且密度多变,由传感器有效距离、阻碍、相关姿势、不统一的3D空间等多种因素引起。图片检测识别领域的主要突破就是从hand-crafted features 转到machine-learned features.
将三维特征学习网络扩展到多个数量级点和三维检测任务是我们在本文中解决的主要挑战。

我们设计了一个新的voxel feature encoding(VFE)layer,通过结合点尺度特征和局部放大特征,体素中的点可以相互作用。通过层叠的VFE层将体素编码,然后3D卷积进一步放大局部voxel特征,将点云转化成高维的体积的表达。最后通过RPN产生检测结果。
我们还证明了体素网在从激光雷达点云探测行人和骑自行车的人方面取得了非常令人鼓舞的结果。
Related Work
基于图片的3D检测方法和深度估计有很强的联系。
VoxelNet
2.1 VoxelNet Architecture
- Feature learning network
- Convolutional middle layers
- Region proposal network
2.1.1 Feature learning network
Voxel Partition
将点云划分为均匀的体素网格。
Grouping
点云在空间中分布不均,导致各个体素内点云数量差别很大。
Random sampling
LiDAR通常可以采集100K的点,运算代价太大,对每个体素内点数超过T的体素实施随机采样,采T个点,好处有两点:
- 计算量减小
- 减下体素间的差异,避免采样偏差
Stacked Voxel Feature Encoding

Sparse Tensor Representation
处理非空体素,得到四维tensor张量,C代表维度。
点云数据中有百分之九十的体素都是空的。
2.1.2 Convolutional Middle Layers
通过扩大接受域扩大了 voxel-wise 特征,给shape description 增加了内容。
2.1.3 Region Proposal Network

2.2 Loss Function

2.3 Efficient Implementation
把点云转化成dense tensor structure,VFE可以平行处理点和体素,以便接下来的convolutional middle layers 和RPN处理。
将点加入体素的过程用哈希表实现,voxel coordinate 被当作哈希key。
网友评论