title: 'DeepMVS: Learning Multi-view Stereopsis论文阅读'
date: 2019-11-13 09:22:44
tags:
- paper
- 3D
- todo
Abstract
- 任务
- 生成某张图片(多视角图片中的一个, 文中称
reference image
)的disparity map[1]
- 生成某张图片(多视角图片中的一个, 文中称
- 三个重要部分
- supervised pretraining on a photorealistic synthetic dataset
- an effective method for aggregating information across a set of unordered images(图片的融合)
- integrating multi-layer feature activations from the pre-trained VGG-19 network.(feature的融合)
Introduction
- 前人工作
- 相似工作的不足
- 本文工作
Related Work
Learning Multi-view Stereopsis
pipeline
Input
- 选一张reference image,(即,需要计算disparity map的图片)
- 选取的neighbor images共N张
- 选取的条件是: share the most common features with the reference
- 选取方法类似
COLMAP
[2]
Plane-sweep Volume Generation
- 每个neighbor image, 生成D(D取100)个images(如何生成的?[3]), stack这D个images, 形成一个plane-sweep volume
- 可以说有个images,或者说N个volumes
Network Architecture
网络结构Patch matching
- 对于第i个neighbor的 plane-sweep volume
- 从其所有depth images 中各取出一个patch[4]。所以共取出来D个patches
- 同时也从中取一个patch
- D个patches一个个地与 patch组成pair,输入到Patch matching network, 共得到D个的feature map
- stack这D个feature maps, 形成的feature map
Intra-volume feature aggregation
单视角融合,指的是单视角feature与reference image feature的融合
-
的feature map,输入到Encoder-Decoder网络
- Encoder-Decoder网络是UNET的skip connnect结构
- reference image的features是通过VGG16提取的
- reference image的features提取后,通过stack到Decoder模型不同阶段,完成内部融合
- Decoder输出的feature map ->
Inter-volume feature aggregation
多视角融合
- N个neighbor,每个都会产生, 大小为
- N个通过element-wise max-pooling,融合成大小不变的feature map
- 融合后的feature map通过几个卷积层,输出的feature map
- 对于的each pixel, 在channel axies取max,得到disparity map -> : raw predictions
Refinement
DenseCRF[5] encourages the pixels which are spatially close and with similar colors to have closer disparity predictions
image
网友评论