IROS深度学习定位论文1_三维视点数据增广

作者: 叶秋花夏 | 来源:发表于2018-11-29 22:51 被阅读2次

IROS深度学习定位论文1_三维视点数据增广
IROS深度学习定位论文2_深度学习SLAM
KinectFusion 论文精析
NLP中的数据增广方式
3D点云论文相关论文资料总结
Mixup数据增强/增广和半监督论文导读
三角兽【学习笔记一】
AuTO: Scaling Deep Reinforcement
建议贴:对学校元旦文艺汇演活动定位及管理的深度思考
深度学习实践——图像分类：训练数据增广

IROS深度学习定位论文1_三维视点数据增广

论文名称：Deep Regression for Monocular Camera-based 6-DoF Global Localization in Outdoor Environments
论文地址：http://ais.informatik.uni-freiburg.de/publications/papers/naseer17iros.pdf

1 摘要

在室内或室外场景，机器人精确定位对于安全和自动导航至关重要。值得一提的是，在室外动态场景，要求定位方法精确且鲁棒。单目视觉定位方法相对3D雷达的方法，价格更便宜。近来，基于CNNs的场景识别方法取得了较好的效果。在今天所介绍的论文中，作者提出了一种直接由RGB图像端到端回归相机位姿的模型；同时，提出了一种基于三维视觉的数据增广方式，通过设定的视角阈值和原始图像，生成不同视点的增强图像。实验结果表明，作者提出的方法在定位精度和定位时间上均取得了较好的提升，其中定位时间为：在单NVIDIA-TITAN X GPU上能实现每秒80帧的定位处理。

2 实验结果

2.1 评价指标

对相机位置和姿态进行分别评价，位置误差采用欧氏距离L2（单位为m），姿态误差采单位为度或弧度。接下来将详细介绍如下：
（1）位置误差
$E_q=\sum_{i=1}^{N}||c_i-c_{i}^{gt}||_2$
（2）姿态误差
$旋转矩阵：E_r=\sum_{i=1}^N ||arccos(\frac{tr(R_{gt_i}^{-1}R_i)-1}{2})|| \\ 或 \\ 四元数：E_r=\sum_{i=1}^N 2arccos(|q_{gt_i}.q_i|)\frac{180}{\pi}$
其中用旋转矩阵描述姿态误差的公式来源于Rodriguez（罗德里格斯）公式，推导如下：
$\mathcal R = cos \theta \mathcal I +(1-cos \theta)\vec n {\vec n}^T+ sin(\theta) \vec n^{hat} \\ \Rightarrow tr(\mathcal R)=3cos \theta + (1-cos\theta) + 0 \\ \Rightarrow tr(\mathcal R)=2cos\theta + 1 \Rightarrow \theta = arccos(\frac{tr(R)-1}{2})$

2.2 实验结果

本文所提出的方法在Cambridge Landmarks（包括Kings College、ShopFacade、St Mary Church、OldHospital四个场景）数据集上进行评测，评价结果如下：

图1 实验结果

由实验结果可以看出本文所提出的位姿估计方法在四个场景数据集上均取得了较好的性能。

3 方法

3.1 卷积神经网络结构

基本网络是VGG16，在第一个全连接层进行分叉，每个分叉包括3个全连接层，同时在全连接层（除最后一层）后面增加dropout层；其中一个分叉预测位置，另一个分叉预测姿态。在进行模型训练时，初始权重参数用Xavier weights进行赋值；并设其方差受输入和输出维度影响，具体如下公式所示：
$Var(\mathcal W)=\frac{2}{n_{in}+n_{out}}$

3.2 损失函数设计

所提模型的损失函数如下所示，主要包括位置损失和姿态损失；可以利用四元数q和-q表示同一旋转，作者在构建损失函数时选取损失最小的一种形式进行姿态损失的描述。
$\mathcal L(\theta)=||p_gt - p||_2 + \beta \phi(q_gt, g) \\ \phi(q_gt, g)=min{||q_gt-q||_2, ||q_gt+q||_2} \\ \mathcal L(\theta) = \mathcal L(\theta) + \lambda||\theta||$
其中 $p, q$ 分别代表相机的位置和姿态； $\phi(q_gt, q)$ 是姿态损失函数； $\beta$ 是位置损失和姿态损失的权衡因子， $\lambda$ 是正则因子。

3.3 数据增强之三维视点图像合成

在已知图像及其位姿条件下，可以将图像像素（2D点）转换至3D坐标点（假设世界坐标原点在相机光心处，所经历的转换过程为从像素坐标系-->归一化平面坐标系-->世界坐标系）。本文作者选取yaw（航向角）和pitch（俯仰角）作为旋转变量（取值为 $\pm 5^{\circ}$ ），位移取值为 $\pm 0.5m$ ；由此可构造4个位姿，即可由一张图像增强出4张图像。增强效果如下：

图2 数据增强

4 结论与评价

总体来讲，本论文的创新点很少；但思路很简洁，很适合了解深度学习定位的基础。

IROS深度学习定位论文1_三维视点数据增广
IROS深度学习定位论文1_三维视点数据增广 1 摘要在室内或室外场景，机器人精确定位对于安全和自动导航至关...
IROS深度学习定位论文2_深度学习SLAM
IROS深度学习定位论文2_深度学习SLAM 1 摘要本文所介绍的论文提出了一种完全由深度学习实现的单目SL...
KinectFusion 论文精析
KinectFusion是一种利用kinect相机的深度数据进行实时三维重建的技术。本文学习一篇比较早的论文（见参...
NLP中的数据增广方式
数据增广（Data Augmentation）是自动扩充训练数据的一种技术，单纯表示扩大数据规模，深度学习模型需要...
3D点云论文相关论文资料总结
论文及资料收集斯坦福学者首次提出直接处理三维点云的深度学习模型VoxelNet: 基于点云的三维空间信息逐层次学...
Mixup数据增强/增广和半监督论文导读
目录 1. 简介 2. 数据增广 2.1 Mixup论文 2.2 Manifold Mixup论文 3. 半监督 ...
三角兽【学习笔记一】
1、定位: 人工智能语义公司 2、基于: 大数据深度学习算...
AuTO: Scaling Deep Reinforcement
AuTO: 数据中心规模自动流量优化的扩展深度强化学习本文为SIGCOMM 2018 论文。笔者翻译了论文的关键...
建议贴:对学校元旦文艺汇演活动定位及管理的深度思考
[红顺视点]:建议贴:对学校元旦文艺汇演活动定位及管理的深度思考一、元旦文艺汇演也须正确创意定位过几天各校元旦...
深度学习实践——图像分类：训练数据增广
图像增广(augmentation)是在有限训练数据集的情况下，有效扩大数据规模的方式。它的作用有：1）通过随机增...