城市驾驶场景下的数据集
目标检测与追踪,语义分割和场景解析是城市驾驶场景里的自动驾驶中对机器学习最主要的几大挑战。在几年前,这些问题还是计算机视觉中最具挑战性的问题,如今随着深度学习的发展,使得计算机对环境的准确认知已经超过人类的表现了。这种准确的程度带来了新的挑战:嵌入式系统中的计算,大数据集的需求,以及学习过程中的问题(包括类别不平衡,未观测到的物体,转角场景等)。要实现自动驾驶的应用,这些问题都要解决。
到目前为止,有一些优秀的包含不同的场景、标注和地理分布的公开可用数据集。本文总结了目前的一些公开的自动驾驶视觉数据集,包括KITTI,Cityscapes,Mapillary Vistas, ApolloScape, nuScenes,D²-City以及最近发布的 Berkeley Deep Drive’s BDD100K和Waymo。
数据集对比
Classes | Multiple Cities | Environment | Areas | |
---|---|---|---|---|
KITTI | 34 | 否 | 白天 | 德国Karlsruhe的乡下地区和高速公里上 |
Cityscapes | 34 | 是 | 白天 | 德国及周边国家 |
Mapillary Vistas | 66 | 是 | 白天, 雨天, 雪天, 雾天, 薄雾, 拂晓, 黄昏 和夜晚 | 南北美,欧洲,非洲以及亚洲 |
ApolloScape | 36 | 否 | 白天, 雪天, 雨天, 雾天 | 中国 |
BDD100K | 19 | 是 | 白天, 雨天, 雪天, 雾天, 薄雾, 拂晓, 黄昏 和夜晚 | 美国 |
nuScene | 23 | 是 | 波士顿和新加坡 | |
D²-City | 12 | 是 | 中国 |
KITTI
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。下面是各类别的实例分布。
KITTI数据集的类别分布 img来源:Hassan Abu Alhaija, Siva Karthik Mustikovela, Lars Mescheder, Andreas Geiger: “Augmented Reality Meets Computer Vision : Efficient Data Generation for Urban Driving Scenes”, 2017; [http://arxiv.org/abs/1708.01566 arXiv:1708.01566]
Cityscapes
Cityscape是一个城市场景语义理解任务中被广泛使用的数据集。该数据集在几个月的时间段中采集,涵盖了春夏秋三个季节,主要在德国以及周边国家的50个城市里。图像是使用车用22cm基准线立体相机采集的。数据集包含5000张精标记的和20000张粗标记的图像,包含远比KITTI多的类别实例(尤其是行人和车辆)。下面是19类物体中的实例分布。数据集中具体文件分布和标注信息见github页面
img img来源: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth: “The Cityscapes Dataset for Semantic Urban Scene Understanding”, 2016; [http://arxiv.org/abs/1604.01685 arXiv:1604.01685].
Mapillary Vistas
该数据集很庞大,比Cityscape精标记数据大5倍左右。所有图像都采集自[www.mapillary.com]中的crowdsourced数据库,包含了南北美,欧洲,非洲以及亚洲。其包含了不同的视角,如道路,人行道和越野。其中图像由不同的拍摄设备获取(手机,平板,运动相机等),因此包含不同种类的相机噪声。其含有25k的高清图片,66/152个标记种类(研用/商用),特别是包含一些如消防栓等低矮障碍物的标记。然而要获取该数据集,无论是研究用还是商用都需要申请。值得一提的是奥迪附属的自动智能驾驶中心就使用的其商用版本。
img img来源: Neuhold, Gerhard, et al. “The mapillary vistas dataset for semantic understanding of street scenes.” Proceedings of the International Conference on Computer Vision (ICCV), Venice, Italy. 2017; [https://research.mapillary.com/img/publications/ICCV17a.pdf]
ApolloScape
该数据集包含147k张图像以及对应的像素级标注。其中包括姿态信息和静态背景的深度信息。所有图像采用Riegl VMX-1HA这个拥有VMX-CS6相机系统的相机采集的,具有3384x2710的分辨率。类别标签数据与CityScapes类似,但是由于在东亚国家三轮车的盛行,他们加入了一个新的三轮车的类别并包括了所有三轮的车辆。
img img来源: Xinyu Huang, Xinjing Cheng, Qichuan Geng, Binbin Cao, Dingfu Zhou, Peng Wang, Yuanqing Lin: “The ApolloScape Dataset for Autonomous Driving”, 2018; [http://arxiv.org/abs/1803.06184arXiv:1803.06184].
BDD 100K
这个数据集是最大的公开自动驾驶数据集。其有ApolloScape数据集800倍大小,包含总时长高达1100小时的10W个驾驶事件视频,包含一天中各个时间段和各种天气情况。对于语义分割任务的使用,其具有和CityScapes数据集类似的训练类别。该数据集更多采集自US的NY和湾区地区的基础设施和高速公路交通牌。另外,它还包含了目标检测、车道线检测、可驾驶区域和语义实例分割数据集。
img img来源: Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan: “BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling”, 2018; [http://arxiv.org/abs/1805.04687 arXiv:1805.04687].
nuScenes
nuScenes受KITTI数据集启发,利用全套自动驾驶传感器(6个相机,1个LiDAR,5个RADAR,GPS,IMU)采集了Boston和Singapore的1000多个城市场景(因为这两个城市都因为密集的交通和高度复杂的驾驶环境而出名)的数据。其给出的是目标检测和追踪的数据集。该数据集的特点在于其标记框都是3D的,包含23个类别,采集频率为2Hz,并注有目标级别的属性,如可见度、活动和姿态等。整个数据集包含1.4M张照片,390k的LiDAR扫描,1.4M的RADAR扫描,40k个关键帧里包含1.4M个目标边界框。
image-20190818170757392.png
D²-City
D²-City 提供了超过一万段行车记录仪记录的前视视频数据。所有视频均以高清(720P)或超高清(1080P)分辨率录制。其中的约一千段视频提供了包括目标框位置、目标类别和追踪ID信息的逐帧标注,涵盖了共12类行车和道路相关的目标类别。一部分其余的视频提供了关键帧的框标注。
和现有类似数据集相比,D²-City 的数据采集自中国多个城市,涵盖了不同的天气、道路、交通状况,尤其是极复杂和多样性的交通场景。
Waymo
2019.8.21谷歌的Waymo团队公开了他们的自动驾驶数据集,其中视觉部分包括了五个摄像头的数据(前方,左前,右前,左侧,右侧),并包含四个类别的标签(车辆,行人,骑行者,路标)。总除了摄像头信息,其还包括其他传感器数据,共包含了1000段20秒的各传感器数据,并会持续更新。目前包括的数据有:
- 1000段20秒的片段,在不同的地理环境和条件下以10Hz收集(200,000帧)。
- 传感器数据:
- 1个中程激光雷达
- 4个短程激光雷达
- 5个摄像头(前方和侧面)
- 同步的激光雷达与相机数据
- 激光雷达至相机的投影
- 传感器标定和车辆位姿
- 标签数据:
- 4类目标物体的标签-车辆、行人、骑行者、路标(其中100段视频)
- 12M含有跟踪ID的3D边界框标签(LiDAR数据)(所有1000段数据)
- 1.2M的边界框跟踪ID标签(相机)
网友评论