美文网首页
DeepVO - RCNN——ICRA 2017

DeepVO - RCNN——ICRA 2017

作者: aaa小菜鸡 | 来源:发表于2018-11-29 11:21 被阅读0次

    DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks
    (基于RCNN的端到端VO)
    ——ICRA 2017

    1. 基本认识
    • 输入:连续RGB图像(视频)
      输出:位姿
    • 用RCNN的优势:(就这么点事,明明摘要就已经说清楚了,文中还是重复了n遍...)
      CNN:学习图像中的特征;
      RNN:学习动态连续图像间的关系。
    • 具体流程:
      输入图像
      -> 预处理(减去平均RGB值,可选resize成64*64,将连续两帧stack成一个tensor)
      -> CNN
      -> RNN
      -> 输出位姿
    • Architecture Overview
    1. 技术要点
    • CNN

      这两幅图说得很清楚了:
    • RNN(具体是LSTM)

      图和公式很清楚:(只是图中有的地方少了点字符,很容易看出来) 其中i是输入门,f是忘记门,o是输出门
    • 损失函数与优化

      输入连续图像X,输出位姿序列为Y的条件概率: 优化就是求使得这个条件概率最大的网络参数θ: 就是最小化求得的positions和orientations与ground truth之间的欧氏距离,其中k是平衡position和orientation的量纲的参数:
    1. 实验说明
    • 数据集
      用的是KITTI,其中序列00-10是有ground truth的,11-21没有。所以:
      训练用:00,02,08,09
      验证用:03,04,05,06,07,10
    • 对比标准:
      作为效果对比的是VISO2_M和VISO2_S
    • 训练条件:
      框架:Theano
      硬件:NVIDIA Tesla K40 GPU
      Optimizer:Adagrad
      Learning rate:0.001
      防止过拟合:dropout、early stopping techniques
      CNN:pre-trained FlowNet model
    1. 实验结果:
    • 内部关于过拟合的对比:
      把training和validation的loss曲线相近定义为适当。

      所以training和validation都有一定偏移算是适当,否则validation偏太多就说明在training set上过拟合了:
    • 与ground truth、VISO2_M、VISO2_S的对比:

      这样看起来还不错的样子。对于后面的说明我就没看了。

    1. 感受
    • 我是比较欣赏使用这个RCNN结构的,看到这篇之前也想到过类似想法
    • 由于数据集的限制,训练和验证都在KITTI数据集上,本身同一个数据集就比较相近,泛化性待验证
    • 对比只与VISO2_M和VISO2_S进行效果对比,少一些说服性
    • 扫了一眼后面,没看到各方面的对比和性能说明

    相关文章

      网友评论

          本文标题:DeepVO - RCNN——ICRA 2017

          本文链接:https://www.haomeiwen.com/subject/dfazqqtx.html