Abstract
提出了一种仅利用相邻视频帧的一致性作为监控信号,从视频中同时估计场景深度、相机自运动、物体运动和相机内参的新方法。与之前的工作类似,我们的方法通过学习将可区分的变形应用于帧和对比结果与相邻帧,该工作提供了几点改进:
- 我们直接通过使用训练中预测的深度图,来处理那些几何的和可区分的遮挡。
- 引入了随机层归一化,这是一种新型的强正则化方法,并考虑了目标相对于场景的运动。
- 第一个在无监督的情况下从视频中学习相机的内参,包括镜头畸变,从而使我们能够从大规模的未知来源的任意视频中提取精确的深度和运动。
我们对 Cityscapes、KITTI 和 EuRoC 数据集的结果进行了评估,建立了深度预测和里程测量的新技术,并定性地证明可以从YouTube上的一系列视频中学到场景的深度。
网友评论