3D视觉系列:PoseCNN

作者: 村上春竹 | 来源:发表于2018-09-20 15:21 被阅读148次
    poseCNN

    1 创新点

    • 提出新的位置估计表示形式:预测2d图片中心和距离摄像头距离(利用图像坐标来推测实际3D坐标)。并且通过hough投票来确定物体位置中心。
    • 提出新的姿态估计损失函数ShapeMatch-Loss:解决旋转对称物体姿态估计问题
    • 提出新的数据集: YCB-Video dataset

    2 论文思路

    Net.png

    上述是整个网络结构图

    1. bodynet是vgg16,
    2. 网络的预测输出共有3个。语义分割分支,位置分支,姿态分支。。
    3. 位置分支:利用ISM 表示形式(ISM介绍)间接推测出,而非直接预测三维坐标XYZ值。
      a) 投票.
      b) 极大值抑制.
      c) 设置阈值
    4. 姿态分支:采用四元数表示。对于每个类的每个roi,都预测一个结果。

    3 训练过程

    3.1 ShapeMatch-Loss

    对于上述的每个分支,都有一个loss,一共有3个loss。同时,作者为了应对旋转对称物体的姿态迷惑性(即可以用多个四元数来表示一个姿态),作者提出了一个新的loss——ShapeMatch-Loss。

    SLoss.png
    M是代表3d模型空间中的点, image.png

    4.2 与baseline对比

    baseline为3D coordinate 。


    image.png

    使用RGB作为输入,poseCNN明显性能更高。
    使用RGB-D作为输入,使用ICP作为后处理能够明显提升性能。

    相关文章

      网友评论

        本文标题:3D视觉系列:PoseCNN

        本文链接:https://www.haomeiwen.com/subject/sfegnftx.html