初探3D卷积（附1D、2D卷积）

作者: LiBiscuit | 来源:发表于2019-04-22 14:44 被阅读0次

更一下博搬砖的小李又来福州了
教资笔试过啦！接下来希望面试也能接着幸运~
——————————————————
今天就记录一个新的概念其实也是之前有用过的一种网络模型3DCNN

介绍3D卷积之前先补充一下1D和2D

1D卷积

一维卷积主要用于对只有一个维度的时间序列提取特征，比如信号、股价、天气、文本以及自然语言处理领域。

如上图，图中的输入的数据维度为8，过滤器的维度为5。与二维卷积类似，卷积后输出的数据维度为8−5+1=4。
2D卷积

2D卷积是提取的单张静态图像的空间特征，然后同神经网络结合之后完成图像的分类、检测等计算机视觉方面的任务。
如上图中的输入的数据维度为（14×14），过滤器大小为5×5，二者做卷积，输出的数据维度为（10×10）即（14−5+1=10）。

进入重点3D卷积

3D卷积

2DCNN可以较好地处理单张图片，但是对视频，即多帧图像就会束手无策，因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息，即光流场。因此，为了能够对视频进行特征，以便用来分类等任务，提出了3D卷积，在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。很明显，我们可以直观的发现3DCNN提取的是三维度的方体特征。

如下图，假设输入数据的大小为（a1×a2×a3），过滤器大小为fff，
三维卷积最终的输出为(a1−f+1)×(a2−f+1)×(a3−f+1)。

补充：3D卷积里面也分为单通道和多通道。
针对单通道，与2D卷积不同之处在于，输入的图像多了一个 depth 维度，即输入为(1, depth, height, width)，卷积核也多了一个k_d维度，因此卷积核在输入3D图像的空间维度（height和width维）和depth维度上均进行滑窗操作，每次滑窗与 (k_d, k_h, k_w) 窗口内的values进行相关操作，得到输出3D图像中的一个value。
针对多通道，输入大小为(3, depth, height, width)，则与2D卷积的操作一样，每次滑窗与3个channels上的 (k_d, k_h, k_w) 窗口内的所有values进行相关操作，得到输出3D图像中的一个value。参考（https://www.jianshu.com/p/6e1ef63615f8）