论文 | Pixel2Mesh三维重建模型解读《Pixel2Me

作者: 与阳光共进早餐 | 来源:发表于2019-02-12 20:21 被阅读10次

一写在前面

未经允许，不得转载，谢谢~~

文章基本信息：

ECCV2018
原文链接

这篇文章是三维重建领域的，但是比较新颖的点就在于模型并不需要借助点云、深度或者其他更加信息丰富的数据，而是直接从单张彩色图片直接得到3D mesh。

强烈推荐~~~

关键词：3D shape generation，Graph convolutional neural network，Mesh reconstruction，Coarse-to-fine， End-to-end framework;

二主要内容

2.1 相关背景

从单张图像恢复出原来的三维模型在计算机视觉中是一个很基本的任务，但是也同样具有非常高的难度。

这里先介绍一下常用的几种三维表示方法：

volume：规则数据结构。将物体表示成NNN的格子立方体；
point cloud：不规则数据结构。即如字面意思，用一堆的点来表示物体；
mesh：不规则数据结构。由点、边、面组成。

根据各种不同的表示方法我们可以知道volume受到分辨率和表达能力的限制，会缺乏很多细节；point cloud，点之间没有连接关系，会缺乏物体的表面信息。相比较而言mesh的表示方法具有轻量、形状细节丰富的特点。

三种表示的实验结果可以参考下图：

那么这篇文章到底做了什么事情呢？

文章实现用端到端的神经网络实现了从单张彩色图直接生成用mesh表示的物体三维信息；
文章采用图卷积神经网络来表示3D mesh信息，利用从输入图像提到的特征逐渐对椭圆尽心变形从而产生正确的几何形状；
为了让整个形变的过程更加稳定，文章还采用coarse-to-fine从粗粒度到细粒度的方式；
文章为生成的mesh设计了几种不同的损失函数来让整个模型生成的效果更加好。

其实文章的核心思路就是给用一个椭球作为任意物体的初始形状，然后逐渐将这个形状变成目标物体。

接下来会详细介绍这个变换的过程是如何实现的，以及各个部分是如何进行表示的。

三本文模型方法

3.1 主要模型方法

先贴上网络结构图吧~

我们先不管具体的细节，来看一下主要的流程：

给定一张输入图像：Input image
为任意的输入图像都初始化一个椭球体作为其初始三维形状：Ellipsoid Mesh
整个网络可以大概分成上下两个部分；
- 上面部分负责用全卷积神经网络提取输入图像的特征；
- 下面部分负责用图卷积神经网络来表示三维mesh，并对三维mesh不断进行形变，目标是得到最终的输出（最后边的飞机）
注意到图中的perceptual feature pooling层将上面的2D图像信息和下面的3Dmesh信息联系在一起了，即通过借鉴2D图像特征来调整3D mesh中的图卷积网络的节点状态。这个过程可以看成是mesh deformation.
细心的同学应该也注意到除了刚刚提到的mesh deformation，下面这部分还有一个很关键的组成是graph uppooling。文章提出这个图上采样层是为了让图节点依次增加，从图中可以直接看到节点数是由156-->628-->2466变换的，这其实就是coarse-to-fine的体现。

3.2 各个关键部分

看完3.1部分应该基本了解整个过程是什么样子的了，接下来我们来看一下比较关键的几个部分，比如怎么表示3D mesh，又是怎么从2D图像信息中提取信息来帮助3D mesh的转变？

3.2.1 图卷积神经网络GCN

我们前面介绍过3D mesh是由（顶点，边，面）来描述3D object，这正好对应于与图卷积神经网络M = (V, E, F)一一对应：

V （N个顶点）
E （E条边）
F （N个顶点的特征向量）

图卷积神经网络的定义如下：

其中：

f(p,l), f(p,l+1)分别表示顶点p在卷积操作前后的特征向量；
N(p)指顶点p的邻居节点；
W1,W2表示待学习的参数；

其实整个公式就是表达了图卷积神经网络的节点是根据其自身的特征和邻居节点的特征来进行更新的。

这样我们就解决了3D mesh的表示问题以及如何更新节点状态的问题。

3.2.2 融合2D和3D信息（perceptual feature pooling & mesh deformation block）

文中用了经典的VGG网络来提取二维的图像信息，而用GCN来表示3D mesh，那么如何在两个不同模态的数据之间进行融合工作,更好的利用2D的图像信息来帮助重建3D mesh。

理解图中的两个关键部分（perceptual feature pooling & mesh deformation block）就可以知道了。

mesh deformation block

如上图(a)所示。
C表示三维顶点坐标，P表示图像特征，F表示三维顶点特征；
perceptual feature pooling层负责根据三维顶点坐标C(i-1)去图像特征P中提取对应的信息；
以上提取到的各个顶点特征再与上一时刻的顶点特征F(i-1)做融合，作为G-ResNet的输入；
G-ResNet(graph-based ResNet)产生的输出又做为mesh deformable block的输出，得到新的三维坐标C(i)和三维顶点特征F(i)。

perceptual feature pooling

如上图(b)所示。
负责给定三维坐标点以及图像特征的情况下，获取到三维点对应的特征信息。
首先将3D坐标信息映射回2D坐标点；
取2D坐标点边上最近的四个点进行双线性插值，其结果做为这个顶点的特征；
特别的文章中取了VGG中的conv3_3（256维）,conv4_3（512维）,conv_5_3（512维）的特征进行连接，那么每个顶点就有1280维的特征。
除了最开始的block没有F(i-1)的信息外，其他的block都还能利用上一时刻的128维度的F信息，一共1408维。

G-ResNet

如上图(a)中间的部分。
前面为每个顶点都得到了1408维的特征（除了第一个block）通过G-ResNet就能得到新的位置坐标C和每个顶点的形状特征F；
这就需要节点之间有效的信息交换，但每次图卷积网络只能交换邻居节点的信息，很影响新的交换效率，有点类似2D CNN的小感受野。所以增加了shortcut结构。
每个block的G-ResNet的结构都是一样的（14个conv + 1 shortcut），输出128维，这样就产生新的128维的节点形状信息。

3.3.3 图上采样层（Graph uppooling）

主要是为了节点数量能够逐渐增加，降低训练难度；
主要有face-based和edge-based这2种方式，都比较好理解，就不再解释了；
文章中采用的edge-based的方式。

3.3.4 losses

文章一共为网络模型设计了4种不同的loss，来从不同角度保证网络模型的性能。

这个具体的也不再说了，都看到这里了就去看看原文吧嘻嘻٩(๑❛ᴗ❛๑)۶

四写在最后

这篇文章还是很不错的，我觉得整体的创新性很高~

接下来应该会做3D mesh相关的工作，有兴趣的可以多多交流哇。