UnDeepVO:Monocular Visual Odometry through Unsupervised Deep Learning
UnDeepVO:基于非监督深度学习的单目视觉里程计
作者:Ruihao Li,Sen Wang,Zhiqiang Long and Dongbing Gu
来源:ICRA18
UnDeepVo:一种基于非监督深度学习的单目视觉里程计,该文章收录于ICRA18。本文提出的方法主要有2个突出的特点:一是非监督的深度学习策略,二是能得到绝对的尺度。特别地,我们利用立体影像对获取的尺度来训练UnDeepVO,但用连续的单目影像测试,UnDeepVo所以是一个单目的系统。训练网络的损失函数是基于时空密集数据定义的。系统概略图如图1,我们用KITTI数据集进行了实验,并表示本文方法在位置精度上优于其他单目视觉里程计方法。
主要贡献
- 利用空间和时间的几何约束,用非监督的方式实现了真实尺度的单目视觉里程计。
2.不仅估计了相机位姿,还在训练过程中从立体像对得到了真实尺度的深度图。
3.我们用KITTI数据库评估了本文的VO系统,结果表示UnDeepVO的效果在单目方法中是最先进的。
因为UnDeepVo只需要立体像对来进行训练而不用标记的数据库,所以可以用数量非常大的无标记数据集来提高训练效果。
图1 UnDeepVO系统概略图
在用无标志的立体像对训练之后,UnDeepVO 可以对单目影像同时实现视觉里程计和深度估计。6-DoF位姿和深度参数尺度不需要进行尺度后处理。
算法流程
系统由一个位姿估计器和一个深度估计器组成,如图2所示,它们的输入都是连续的单目影像,分别输出6-DoF的位姿值和深度值。
位姿估计器是一个基于VGG的卷积神经网络,输入两张序列单目影像来预测它们之间6个自由度的转换。因为旋转(欧拉角表示)具有较强的非线性,比平移更加难训练,所以为了更好地用非监督学习训练,我们在最后一个卷积层后用两个有完全连接层的单独集来分开平移和旋转参数。这样我们就可以引入权重归一化旋转和平移,从而得到更好的预测值。
深度估计器主要是基于编码-解码来得到密集的深度图。不同于利用影像视差(逆深度)的深度估计方法,本文采用直接预测深度图的方式来训练,因为训练轨迹报告显示这样做会使得系统更容易收敛。
UnDeepVO的训练方法位姿估计器和深度估计器把立体像对当作输入来分别得到位姿值和深度图。基于原始的RGB影像,估计的深度图和位姿值来计算空间和时间上的损失函数。
大多数单目VO的方法都采用一个预定义的尺度,本文采用图3所示的训练策略来得到绝对的尺度信息。在训练中,我们给神经网输入左右影像来分别得到左右序列的位姿值和深度值,然后用输入的立体像对,估计的深度图和位姿值,再利用立体影像序列的空间和时间上几何几何一致性来构建损失函数。空间上的几何一致性是指左右影像对上同名点的重投影几何约束,时间上的几何一致性即指单目序列影像之间同名点的重投影几何约束。最后一起最小化这些限制下的损失函数,UNDeepVO能以端对端的方法实现真实尺度的位姿和深度估计。
主要结果
文章结果主要针对上述三点贡献:
1. 利用空间和时间的几何约束,用非监督的方式实现了真实尺度的单目视觉里程计。
因为SfMLearner不能恢复尺度信息,所以用7参数转换进行后处理。UnDeepVO和SFMLearner使用大小为416x128的影像,而VISO2-M是1242x376。
VO结果
所有的方法都没有用闭环检测。
单目的VISO2-M和双目VISO2-S的轨迹图都绘制在上图,可以看出我们UNDeepVO的效果和VISO2-S相近。
2.不仅估计了相机位姿,还在训练过程中从立体像对得到了真实尺度的深度图。
网友评论