论文:cvpr2015
Recurrent Convolutional Neural Network for Object Recognition
RFs:感受野
前馈模型只能捕捉到上下文(例如,图1中的脸)在单位有较大的RFs较高图层,但这些信息不能调节的活动在较低层单位负责识别较小的对象(例如,图1中的鼻子)。利用这些信息,一个策略是使用自顶向下(或反馈)连接到它向下传播[32],它是采用卷积深层信念网络(CDBN) [31]。在本研究中,我们采用了一种不同的策略,即在相同层次的深度学习模型中使用重复连接。这些横向连接具有上下文调节能力,有望提高深度学习模型的性能。
图1本文提出了一种用于静态目标识别的递归CNN算法。该体系结构如图2所示,其中前馈连接和重复连接都具有局部连接性,并且在不同位置之间共享权重。这种架构非常类似于经常用于动态控制的递归多层感知器(RMLP)[11,37](图2,中间)。主要的区别是RMLP中的完整连接被共享的本地连接代替,就像MLP[40]和CNN之间的区别一样。因此,我们将该模型称为递归卷积神经网络(RCNN)。
图2为了节省计算,第一层是标准的无重复连接的前向卷积层,然后是最大池。在此之上,使用了四个rcl,中间有一个最大池层。相邻的rcl之间只有前馈连接。两个池化操作都是stride=2和size=3。第四个RCL的输出遵循一个全局最大池化层,它输出每个特征映射的最大值,从而产生一个表示图像的特征向量。这与使用全连接层的[26]模型或使用全局平均池化的[33,50]模型不同。最后利用softmax层对特征向量进行分类
RCNN的整体架构。左:展开RCL, T = 3个时间步长,得到最大深度4,最小深度1的前馈子网络。在t = 0时,只进行前馈计算。右:本文使用的RCNN包含一个convolutional layer,四个RCL,三个max pooling layer和一个softmax layer。
图3从计算的角度来看,RCNN中的循环连接有几个优点。首先,它们使每个单元能够将上下文信息合并到当前层中任意大的区域中。实际上,随着时间步长的增加,当前层中越来越大的邻域中每个单元的状态都受到其他单元的影响;因此,单元可以在输入空间中“观察”的区域的大小也会增加。在CNN中,当前层中单位的感受野大小是固定的,只有在更高的层中单位才有可能“观看”更大的区域。但是不幸的是,如果没有自顶向下的连接,高层单元所看到的上下文不能影响当前层中单元的状态。其次,通过权值共享,在保持可调参数数量不变的情况下,循环连接增加了网络深度。这与现代CNN架构的趋势是一致的:使用相对较少的参数进行深入[33,44,50]。注意,仅仅通过在层之间共享权值来增加CNN的深度,就可以得到与RCNN相同的深度和相同数量的参数,但是这种模型(图4)在性能上可能无法与RCNN竞争,这在我们的实验中得到了验证(如表1)。我们把这个事实归因于学习如此深奥的模型的困难。接下来是RCNN的第三个优势——时间展开的RCNN实际上是一个在输入层和输出层之间有多条路径的CNN(图3),这可能会有助于学习。一方面,更长的路径的存在使得模型能够学习高度复杂的特征。另一方面,较短路径的存在有助于训练过程中的梯度反向传播。在[50,30]中也使用了多路径,但是在隐层中使用了额外的目标函数来缓解深度网络训练的困难,而在RCNN中没有使用。
图4 表1
网友评论