美文网首页3D重建
Pix2Vox论文阅读

Pix2Vox论文阅读

作者: FantDing | 来源:发表于2019-11-15 10:15 被阅读0次

    title: Pix2Vox论文阅读
    date: 2019-11-06 21:12:22
    tags:

    • paper
    • todo
    • 3D

    论文原文《Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images》

    Abstract

    • 前人工作:
      • 方法: RNN融合提取的sequential input images features[1]
    • 缺点:
      • RNN方法: 必须和训练same order
      • long-term memory loss[2]
    • 工作:
      • novel framework for single-view and multi-view
      • context-aware fusion module
    • 成果:
      • SOTA on ShapeNet and Pix3D
      • 24 times faster than 3D-R2N2 in terms of back-ward inference time [原因应该是3D-R2N2模型是RNN-based的]
      • superior generalization

    Introduction

    • 前人工作
      • 传统方法: 需要匹配特征,但是视角外观等因素导致,有时候特征匹配不到
      • RNN-based model: 同序; long-term memory; 耗时
    • 本文工作
      • encoder-decoder: eliminates the effect of the orders; eliminates the effect of the orders
      • context-aware fusion module:selects high-quality reconstructions & fuse[3]
      • refiner: refine

    相关工作

    Single-view 3D Reconstruction

    Multi-view 3D Reconstruction

    • RNN-based
    • 3DensiNet[4]

    Method

    Overview

    • 能输入single or multiple RGB images

    Network architecture

    Pix2Vox-F参数少,Pix2Vox-A更精确;主要差别在于Pix2Vox-F少了refiner部分,也就少了RLoss; 卷积核大小也有细微差别

    Pix2Vox-F Pix2Vox-A

    3.2.1 Encoder

    • VGG16+ BN+ 追加了3层, 两种结构追加的部分不一样

    3.2.2 Decoder

    • 5个3D卷积层
    • 输出32*32*32的vox
    • 最后一层接sigmoid,保证每个点的输出是概率值

    3.2.3 Context-aware Fusion

    作者相信不同视角出来的vox,都是object's canonical view[物体的正则视图],只是vox在view看到的部分会恢复的更好, Context-aware Fusion Module负责融合这些最可信的部分

    • 如何从v_i^{c}生成v_f
      • 所有视角: 通过c_i^1c_i^2的融合,得到context c_i
      • 所有视角: c_i送入Context Scoring网络(也就是几个3D卷积), 得到逐点的评分m_i
      • 所有m_i: 在相同位置处进行normalize,文中使用softmax,得到正则化后的逐点评分 s_i,相当于点的权重 [这个地方,视角之间关联上了]
      • 所有v_i^c使用s_i加权平均,得到v_f
    Context-aware Fusion

    3.2.4 Refiner

    • 结构: 3D encoder-decoder with the U-net connections

    3.2.5 Loss Function

    loss function

    这里的N是所有vox个数

    4 Experiments

    4.1 Datasets and Metrics

    Dataset

    • SharpNet
      • 合成的图片
      • use a subset: 包括13 major categories and 43,783 3D models
    • Pix3D
      • real image
      • use the 2894 untruncated(非截断) and unoccluded(非封闭) chair images[5]

    Evaluation Metrics

    可以看成3D IOU

    Metrics

    4.2 实验细节

    • 224*224 RGB -> 32*32*32 VOX
    • 前250 epoches:
      • 只输入single-view image, 也就不需要训练context-aware fusion module。因为context-aware fusion module是为了计算不同视角vox的权值,在只输入单视角图片时,其权值肯定为1,相当于不加权直接输出结果
    • 后100 epoches:
      • random numbers of input images
      • train whole network, 即加上了context-aware fusion module

    4.3 合成图片的重建结果

    • single-view恢复结果
    • multi-view恢复结果

    4.4 真实世界图片重建结果

    • we test our methods for single-view reconstruction on the Pix3D dataset. [6]

    • We use the pipeline of RenderForCNN to generate 60 images for each 3D CAD model in the ShapeNet dataset.读不懂[7]

    4.5 Reconstruction of Unseen Objects

    • 所有模型都是在SharNet 13 major categories上训练的
    • Unseen Objects:
      • ShapeNetCore 剩下的44 categories上,选取24 random views进行预测

    4.6 消融实验

    Context-aware fusion

    • 使用均值来代替前面的context weighted

      • 效果差


        image
    • 使用3D convolutional LSTM[8]代替Context-aware fusion,来融合多个视角

      • 效果比均值还要差

    Refiner

    随着视角的增多, Refiner的效果越不明显

    4.7 复杂度

    image

    4.8 讨论

    • 可视化score mapes发现, our scoring scheme是有效的
    • 在multi-view stereo (MVS) 任务上: 在LSM模型中[9],使用context-aware fusion module代替RNN, 重建效果更好。进一步说明context-aware fusion module优越
    • improve the reconstruction resolutions in the future work by introducing GANs

    Conclusion and Future Works

    • plan to extend Pix2Vox to reconstruct 3D objects from RGB-D images.

    1. 3D-R2N2

    2. 看图片也只有3张呀,哪里来的long term memory

    3. 作者说“To the best of our knowledge, it is the first time to exploit context across multiple views for 3D reconstruction.”,但个人觉得应该不会是第一次吧,怎么可能之前的结构都不考虑融合多视角呢?

    4. 应该不是使用RNN,那是怎么做的呢?

    5. 为什么强调这两点?全是椅子的图片?

    6. 为什么只使用single view?

    7. 这是什么意思?REAL-WORLD images不是使用Pix3D dataset吗?

    8. 什么玩意,如何work的?

    9. what

    相关文章

      网友评论

        本文标题:Pix2Vox论文阅读

        本文链接:https://www.haomeiwen.com/subject/kxujictx.html