1 文章说明

链接：http://openaccess.thecvf.com/content_ECCV_2018/papers/Weiyue_Wang_Depth-aware_CNN_for_ECCV_2018_paper.pdf

方向：RGB-D分割

会议：ECCV2018

2 本文思路

2.1 提出问题

（1）CNN本身是在欧式网格空间中提取特征，也就是说CNN使用固定的网格卷积提取特征，本身就难以提取几何特征

（2）同样将CNN应用于depth图像时同样的问题也会出现，即CNN提取depth图像的特征有一定的上限

（3）使用两个特征提取网络（two stream）分别对RGB和depth特征进行提取，增加了参数量和降低了计算效率。

（4）使用3D网络同样会使用很多参数并且降低计算效率

2.2 分析

本文主要分析了深度图像与RGB图像如何互补

（1）直观分析

图1 直观分析实例

从图1中可以看出，对于A、B、C三个点，仅从RGB图像中难以分辨A、B、C三个点分别处于哪个物体上，因为由RGB图像中提取的与A、B、C三个点相关的特征相似程度很高，难以分辨，而从深度图像中则能够通过depth特征较为清晰的分辨出A、B、C三个点分别属于哪个物体，并且判断出A、C属于同一个物体。并且一个直观的判断就是位于同一深度的点，相比于不同深度的点更有可能属于同一个物体。

（2）统计分析

表 1 对同一类别的点的深度的方差分析和所有类别的点的深度的方差分析

在直观分析的基础上，本文对数据空中的图像以及对应的类别做了像素级统计分析，其分析了属于同一个类别的所有像素的深度的方差变化和所有类别的像素深度的方差，其统计结果如表1所示，从中可以看出同一个类别（即使是大物体如floor, wall）的深度方差远小于所有类别的深度方差，这说明同一个物体的深度相差不大，验证了主观分析的结果，即两个点的深度越接近越倾向于为同一个物体。

3 提出方案

根据分析结果，本文提出了depth-aware CNN, 其主要由depth-aware convolution 和 depth-aware average pooling构成

3.1 depth-aware convolution

图2 depth-aware convolution原理

本文提出的depth-aware convolution原理图如图2所示，此结构是对深度相近的两个点更有可能属于同一个物体的直接实现，具体方法为假设设计的CNN从RGB图像中提取5个level的特征，即1/1， 1/2， 1/4， 1/8和1/16五个level的特征，以第2个level的特征为例，现在有来自上一level的特征F，为了说明方便，假设F的维度为 $W \times H \times1$ 作为当前level的输入特征也就是第2个level的输入特征，现在用 $3 \times 3$ 的卷积来对F进行处理，如图2所示，图2中的Input Feature 即为F， Conv Kernel即为使用的 $3 \times 3$ 卷积C，现在想不增加网络参数的同时，将直观分析的结果即两个点的深度越接近，两个点越有可能处于同一物体嵌入到网络中，对于 $3 \times 3$ 卷积来说，当前点（特征）即为中间的点（特征，图3中的红点），通过 $3 \times 3$ 卷积寻找当前点与相邻的8个点（特征，图3中的8个点）的关系，而将直观分析的结果嵌入到网络中的办法是，根据Depth图来判断当前点（特征）与相邻的8个点（特征）的深度关系，如若当前点离点1近则赋予点1以较大的权重，反之赋予点1较小的权重，这就是在图2中的Depth Similarity，其本质上为对应特征点的权重如图2所示，应当注意的是这个权重是赋予在特征点上的，而不是卷积上的。这个权重的计算如图2所示，首先将深度图像缩放到当前level，在这里就是1/2，然后根据当前点的坐标，来计算深度图像中对应坐标的相邻权重。