3、Feature Pyramid Networks
(1)Bottom-up pathway
使用的网络结构是:ResNet网络。在网络的前向传播过程中,总共有5种不同大小的feature map,对于相同大小的feature map,我们称之为网络的一个阶段。参考ResNet的网络结构图,总共有5个阶段:conv1、conv2、conv3、conv4、conv5。
在这里选择conv2、conv3、conv4、conv5来建立特征金字塔,它们对应的strides分别为:{4,8,16,32}。这里没有使用conv1,因为会占用太多的内存。
注意,这里选择每个阶段的最后一层来作为特征层,因为每个阶段的最好一层有最强的特征。并分别把选取的4个特征层记作:{ C2、C3、C4、C5}。
(2)Top-down Pathway and lateral connections
① Top-down Pathway:将上述的4张特征图从上到下进行下采样。
② lateral connections:将bottom-up pathway和top-down pathway具有相同尺寸的特征图按照元素进行相加。在这里,bottom-up pathway底层的特征图能够定位的更准确,因为下采样的次数较少,所以包含了更多的细节信息。
③ 在lateral connections阶段,由于相加的两个特征图的通道数不一样,所以需要先对bottom-up pathway的特征图进行1 * 1的卷积,以调整通道数和上采样的结果相同。相加之后,对相加的结果进行3 * 3的卷积,以消除上采样的混淆现象(aliasing effect)。最后的结果记作:{ P2、P3、P4、P5},并且和{ C2、C3、C4、C5}是一一对应的。
4、Applications
4.1 Feaure Pyramid Networks for RPN
(1)特征金字塔中的每张特征图生成anchor的时候只使用一种尺寸,具体的尺寸是:{ P2、P3、P4、P5、P6}分别对应{ 322、642、1282、2462、5122},并且每个anchor对应的宽高比为:{1:2,1:1,2:1}。这样,在整个特征金字塔中有15种不同的anchor。其中:P6是P5下采样的结果,并且在fast r-cnn阶段不使用P6。
(2)训练RPN所采用的labels(对应于每个anchor)用IOU来确定,如果IOU>0.7,则为正样本,如果IOU<0.3则为负样本。
(3)不用判断某个gt_box对应于特征金字塔中的哪张特征图。因为,gt_box和anchor是对应的,而对于某一个anchor,我们是知道出自于哪张特征图的。
4.2 Feature Pyramid Networks for Fast R-cnn
(1)因为这里有4种尺度的特征图(每种特征图上都有从原图上的anchor映射过来的proposals),所以,在使用ROI Pooling的时候,也必须有4种不同的ROI Pooling,那么如何对应ROI Pooling和特征图呢?可以参考下面的公式,Pk为特征金字塔的特征图,w和h为对应的特征图尺寸:[图片上传失败...(image-ec0fd8-1528804803897)] \right \rfloor)
其中,224为原图尺寸,k0 = 4。
(2)特征金字塔中的每张特征图(即,{ P2、P3、P4、P5})中的proposals经过他们对应的ROI Pooling,分别输出7 * 7的结果,也就是说,这4张特征图上的proposals经过ROI Pooling之后,提取出了49个特征。
然后,把上述7 * 7的结果分布连接两个全连接层,接下来分别进行分类和定位(当然,这里的参数也是共享的)。
5、Experiments on Objection Detection
5.1 Region proposals with RPN
(1)Implement details
① 在8个GPU上,使用同步SGD的方法进行训练
② 在每一个GPU上,每个mini_batch包含2张图片,每张图片256个anchor
③ 权重衰减0.0001,动量:0.9
④ 起初30k个mini_batch的学习率是0.02,接下来10k个为0.002
⑤ 超出图片边界的anchor也会被使用(在faster r-cnn中,超出图片边界的anchor会被直接忽略掉)
(2)Comparisions with baselines
① FPN之所以会比普通的RPN效果好,原因是:RPN只在最后一张特征图上进行操作,会使它在更高的分辨率和更强的语义信息之间做妥协。
② How important are lateral connections?
Table 1(e)展示了只使用top-down feature pyramid而没有使用1 * 1 lateral connections的结果。
可以肯定的是:top-down feature pyramid同时具有很强的语义信息和更高的分辨率。但是,这些特征在进行物体定位的时候不够精确,因为这些maps经过了多次的下采样和上采样,丢失了这些信息。但是,更精确的定位信息,可以通过lateral connections传递进来。
5.2 Object Detection with Fast/Faster R-cnn
(1)Implementation details
① 在8个GPU上,使用同步SGD的方法进行训练,每个GPU上的mini-batch包含两张图片,每一张图片使用512个ROIs
② 权重衰减:0.0001, 动量:0.9
③ 起初60k个mini_batch的学习率是0.02,接下来20k个为0.002
④ 每张图片,在训练的时候使用2000个proposals(然后从中随机选取512个ROIs),测试的时候使用1000个。
(2)Faster R-cnn(on consistent proposals)
使用FPN效果好的原因:
① 增加了输入图片的分辨率,这里使用的是800(以前是600)
② 每张图片使用512个ROIs进行训练,可以加快收敛(以前是64个ROIs)
③ 使用了5种尺寸的anchor(以前的是4种尺寸,增加了322)
④ 测试的时候,每张图片使用1000个proposals(以前是300个)
网友评论