美文网首页3D重建
DeepMVS: Learning Multi-view Ste

DeepMVS: Learning Multi-view Ste

作者: FantDing | 来源:发表于2019-11-15 10:19 被阅读0次

    title: 'DeepMVS: Learning Multi-view Stereopsis论文阅读'
    date: 2019-11-13 09:22:44
    tags:

    • paper
    • 3D
    • todo

    Abstract

    • 任务
      • 生成某张图片(多视角图片中的一个, 文中称reference image)的disparity map[1]
    • 三个重要部分
      • supervised pretraining on a photorealistic synthetic dataset
      • an effective method for aggregating information across a set of unordered images(图片的融合)
      • integrating multi-layer feature activations from the pre-trained VGG-19 network.(feature的融合)

    Introduction

    • 前人工作
    • 相似工作的不足
    • 本文工作

    Related Work

    Learning Multi-view Stereopsis

    pipeline

    Input

    • 选一张reference image,I_R(即,需要计算disparity map的图片)
    • 选取I_R的neighbor images共N张
      • 选取的条件是: share the most common features with the reference
      • 选取方法类似COLMAP [2]

    Plane-sweep Volume Generation

    • 每个neighbor image, 生成D(D取100)个images(如何生成的?[3]), stack这D个images, 形成一个plane-sweep volume
    • 可以说有N*D个images,或者说N个volumes

    Network Architecture

    网络结构

    Patch matching

    • 对于第i个neighbor的 plane-sweep volume V_i
    • 从其所有depth images V_{i,j}中各取出一个patch[4]。所以V_i共取出来D个patches
    • 同时也从I_R中取一个patch
    • D个patches一个个地与I_R patch组成pair,输入到Patch matching network, 共得到D个64*64*4的feature map
    • stack这D个feature maps, 形成64*64*4D的feature map
    image

    Intra-volume feature aggregation

    单视角融合,指的是单视角feature与reference image feature的融合

    • 64*64*4D的feature map,输入到Encoder-Decoder网络
      • Encoder-Decoder网络是UNET的skip connnect结构
    • reference image的features是通过VGG16提取的
    • reference image的features提取后,通过stack到Decoder模型不同阶段,完成内部融合
    • Decoder输出64*64*800的feature map -> F_i
    image

    Inter-volume feature aggregation

    多视角融合

    • N个neighbor,每个都会产生F_i, 大小为64*64*800
    • N个F_i通过element-wise max-pooling,融合成64*64*800大小不变的feature map
    • 融合后的feature map通过几个卷积层,输出64*64*D的feature map
    • 对于64*64的each pixel, 在channel axies取max,得到disparity map -> \hat d_{raw}: raw predictions
    image

    Refinement

    DenseCRF[5] encourages the pixels which are spatially close and with similar colors to have closer disparity predictions

    image
    1. 这里

    2. Pixelwise view selection for unstructured multi-view stereo. In ECCV, 2016.

    3. 如何生成的

    4. 如何定义的

    5. 啥呀

    相关文章

      网友评论

        本文标题:DeepMVS: Learning Multi-view Ste

        本文链接:https://www.haomeiwen.com/subject/yjujictx.html