1、视频就是图片的序列
比如说25帧的视频,其对应的就是每秒25张图片,所以当一个视频输入给一个神经网络时,其本质就是一个图片序列。同理,对于图片标注工具也一样,视频会被分成一系列图片进行标准。
2、通过拉框标注进行车辆检测
拉框标注的过程本质,就是通过人工对图片中的目标(以下用自动驾驶感知任务中的车辆来举例)进行检测(即是否有这种目标?)和定位(即它在图片的什么位置?)来教会神经网络进行车辆检测和定位。
以下通过车辆拉框的例子来进行进一步的说明。
如下面图所示,两张图片里,各有一个矩形框将整个车的轮廓都框入。通过框在图片的位置,即四个角点的坐标,就可以知道框内目标相对于图片的位置和大小。而这些标注得到的车辆框的坐标,也正是训练车辆检测神经网络的训练集中的真值。这些真值会用来和车辆检测神经网络输出的预测结果(即当把同一图片输入给目标神经网络所产生的四个角点的坐标)做比较,得到差异值(即损失函数值)再去迭代神经网络的参数(即反向传播)。
当然,实际自动驾驶系统所使用感知技术的标注过程中需要的注意事项和需要的标注的信息,会比上述过程复杂、丰富得多。用下图例子示意,其需要把画面中的所有车辆都框出,还需要补全遮挡部分以及不可见部分。但是,大体过程和原理是类似的。
3、自动驾驶怎么使用检测结果
自动驾驶需要的输入以及组成部分非常繁多和复杂。所以本文还是针对原始问题以车辆检测说明车辆检测结果是怎么被使用的。
如上所说,一个训练好的车辆检测神经网络对相机输入的视频流(图片流)进行处理,实时检测图片里面的车辆(即利用训练好的神经网络进行推理得过程),得到车辆在图片里面的位置和相对于图片的大小。由于车辆上安装的相机参数信息(如分辨率等)是系统已知信息。同时,这些相机也经过了标定过程,所以系统得到了相机安装完后的外参。简而言之,这个过程就是通过标定获得了一个基准参考,从而可以推断图片中占用特定大小像素的目标的实际尺寸是多少,以及相对于自身车辆的距离是多少。这些信息会被输入到自动驾驶系统里的后续模块,比如决策是否需要进行诸如减速、转向的操作。
4、继续了解目标检测
目标检测是自动驾驶的关键基础技术,也是整个深度学习应用的热点之一(如果不是最热的话☺)。关于这一话题有许许多多的参考信息,而且都不难获得。
在这里,我附上一篇知乎的总结文章和一张很有意思的总结图作为抛砖引玉。
网友评论