1 文章说明
方向:RGB-D分割
会议:ECCV2018
2 本文思路
2.1 提出问题
(1)CNN本身是在欧式网格空间中提取特征,也就是说CNN使用固定的网格卷积提取特征,本身就难以提取几何特征
(2)同样将CNN应用于depth图像时同样的问题也会出现,即CNN提取depth图像的特征有一定的上限
(3)使用两个特征提取网络(two stream)分别对RGB和depth特征进行提取,增加了参数量和降低了计算效率。
(4)使用3D网络同样会使用很多参数并且降低计算效率
2.2 分析
本文主要分析了深度图像与RGB图像如何互补
(1)直观分析

从图1中可以看出,对于A、B、C三个点,仅从RGB图像中难以分辨A、B、C三个点分别处于哪个物体上,因为由RGB图像中提取的与A、B、C三个点相关的特征相似程度很高,难以分辨,而从深度图像中则能够通过depth特征较为清晰的分辨出A、B、C三个点分别属于哪个物体,并且判断出A、C属于同一个物体。并且一个直观的判断就是位于同一深度的点,相比于不同深度的点更有可能属于同一个物体。
(2)统计分析

在直观分析的基础上,本文对数据空中的图像以及对应的类别做了像素级统计分析,其分析了属于同一个类别的所有像素的深度的方差变化和所有类别的像素深度的方差,其统计结果如表1所示,从中可以看出同一个类别(即使是大物体如floor, wall)的深度方差远小于所有类别的深度方差,这说明同一个物体的深度相差不大,验证了主观分析的结果,即两个点的深度越接近越倾向于为同一个物体。
3 提出方案
根据分析结果,本文提出了depth-aware CNN, 其主要由depth-aware convolution 和 depth-aware average pooling构成
3.1 depth-aware convolution

本文提出的depth-aware convolution原理图如图2所示,此结构是对深度相近的两个点更有可能属于同一个物体的直接实现,具体方法为假设设计的CNN从RGB图像中提取5个level的特征,即1/1, 1/2, 1/4, 1/8和1/16五个level的特征,以第2个level的特征为例,现在有来自上一level的特征F,为了说明方便,假设F的维度为作为当前level的输入特征也就是第2个level的输入特征,现在用
的卷积来对F进行处理,如图2所示,图2中的Input Feature 即为F, Conv Kernel即为使用的
卷积C,现在想不增加网络参数的同时,将直观分析的结果即两个点的深度越接近,两个点越有可能处于同一物体嵌入到网络中,对于
卷积来说,当前点(特征)即为中间的点(特征,图3中的红点),通过
卷积寻找当前点与相邻的8个点(特征,图3中的8个点)的关系, 而将直观分析的结果嵌入到网络中的办法是,根据Depth图来判断当前点(特征)与相邻的8个点(特征)的深度关系,如若当前点离点1近则赋予点1以较大的权重,反之赋予点1较小的权重,这就是在图2中的Depth Similarity,其本质上为对应特征点的权重如图2所示, 应当注意的是这个权重是赋予在特征点上的,而不是卷积上的。这个权重的计算如图2所示,首先将深度图像缩放到当前level,在这里就是1/2,然后根据当前点的坐标,来计算深度图像中对应坐标的相邻权重。

假设当前点为,相邻点为
,对应的卷积域为R(卷积核的大小),则普通的卷积的计算公式为:

其中为卷积的权重,则depth-aware convolution的计算权重为:

上式中的为图2中的depth similarity,其实根据深度图像计算得到的,其计算方法为:

.
3.2 Depth-aware Average Pooling
Depth-aware Average Pooling的原理同Depth-aware convolution相同, 如图4所示:

其计算公式为:


3.3 Depth-aware CNN的理解与可视化
如图5所示,将Depth-aware CNN的有效感受野可视化后可以发现,有效的感受野主要集中在于当前点(特征)深度相同的区域内。

4 实验
4.1 网络结构
本文使用的网络结构为Deeplab,对Deeplab的改进如表2所示

4.2 数据库
(1)NYUv2: 1, 449 RGB-D图像,其中795 用于训练, 654 用于测试
(2)SUN-RGBD:10, 335 RGB-D 图像, 5, 285用于训练,5050用于测试
(3)Stanford Indoor Dataset (SID) : 70, 496 RGB-D 图像
4.3 结果
(1) NYUv2

(2)SUN-RGBD

(3)SID

网友评论