FPN读书笔记

作者: haoshengup | 来源:发表于2018-06-12 20:00 被阅读58次
    3、Feature Pyramid Networks

    (1)Bottom-up pathway
      使用的网络结构是:ResNet网络。在网络的前向传播过程中,总共有5种不同大小的feature map,对于相同大小的feature map,我们称之为网络的一个阶段。参考ResNet的网络结构图,总共有5个阶段:conv1、conv2、conv3、conv4、conv5。
      在这里选择conv2、conv3、conv4、conv5来建立特征金字塔,它们对应的strides分别为:{4,8,16,32}。这里没有使用conv1,因为会占用太多的内存。
      注意,这里选择每个阶段的最后一层来作为特征层,因为每个阶段的最好一层有最强的特征。并分别把选取的4个特征层记作:{ C2C3C4C5}。
    (2)Top-down Pathway and lateral connections
      ① Top-down Pathway:将上述的4张特征图从上到下进行下采样。
      ② lateral connections:将bottom-up pathway和top-down pathway具有相同尺寸的特征图按照元素进行相加。在这里,bottom-up pathway底层的特征图能够定位的更准确,因为下采样的次数较少,所以包含了更多的细节信息。
      ③ 在lateral connections阶段,由于相加的两个特征图的通道数不一样,所以需要先对bottom-up pathway的特征图进行1 * 1的卷积,以调整通道数和上采样的结果相同。相加之后,对相加的结果进行3 * 3的卷积,以消除上采样的混淆现象(aliasing effect)。最后的结果记作:{ P2P3P4P5},并且和{ C2C3C4C5}是一一对应的。

    4、Applications

    4.1 Feaure Pyramid Networks for RPN
      (1)特征金字塔中的每张特征图生成anchor的时候只使用一种尺寸,具体的尺寸是:{ P2P3P4P5P6}分别对应{ 322642128224625122},并且每个anchor对应的宽高比为:{1:2,1:1,2:1}。这样,在整个特征金字塔中有15种不同的anchor。其中:P6P5下采样的结果,并且在fast r-cnn阶段不使用P6
      (2)训练RPN所采用的labels(对应于每个anchor)用IOU来确定,如果IOU>0.7,则为正样本,如果IOU<0.3则为负样本。
      (3)不用判断某个gt_box对应于特征金字塔中的哪张特征图。因为,gt_box和anchor是对应的,而对于某一个anchor,我们是知道出自于哪张特征图的。
    4.2 Feature Pyramid Networks for Fast R-cnn
      (1)因为这里有4种尺度的特征图(每种特征图上都有从原图上的anchor映射过来的proposals),所以,在使用ROI Pooling的时候,也必须有4种不同的ROI Pooling,那么如何对应ROI Pooling和特征图呢?可以参考下面的公式,Pk为特征金字塔的特征图,w和h为对应的特征图尺寸:[图片上传失败...(image-ec0fd8-1528804803897)] \right \rfloor)


      其中,224为原图尺寸,k0 = 4。
      (2)特征金字塔中的每张特征图(即,{ P2P3P4P5})中的proposals经过他们对应的ROI Pooling,分别输出7 * 7的结果,也就是说,这4张特征图上的proposals经过ROI Pooling之后,提取出了49个特征。
      然后,把上述7 * 7的结果分布连接两个全连接层,接下来分别进行分类和定位(当然,这里的参数也是共享的)。
    5、Experiments on Objection Detection

    5.1 Region proposals with RPN
    (1)Implement details
      ① 在8个GPU上,使用同步SGD的方法进行训练
      ② 在每一个GPU上,每个mini_batch包含2张图片,每张图片256个anchor
      ③ 权重衰减0.0001,动量:0.9
      ④ 起初30k个mini_batch的学习率是0.02,接下来10k个为0.002
      ⑤ 超出图片边界的anchor也会被使用(在faster r-cnn中,超出图片边界的anchor会被直接忽略掉)
    (2)Comparisions with baselines
      ① FPN之所以会比普通的RPN效果好,原因是:RPN只在最后一张特征图上进行操作,会使它在更高的分辨率和更强的语义信息之间做妥协。
      ② How important are lateral connections?
      Table 1(e)展示了只使用top-down feature pyramid而没有使用1 * 1 lateral connections的结果。
      可以肯定的是:top-down feature pyramid同时具有很强的语义信息和更高的分辨率。但是,这些特征在进行物体定位的时候不够精确,因为这些maps经过了多次的下采样和上采样,丢失了这些信息。但是,更精确的定位信息,可以通过lateral connections传递进来。
    5.2 Object Detection with Fast/Faster R-cnn
    (1)Implementation details
      ① 在8个GPU上,使用同步SGD的方法进行训练,每个GPU上的mini-batch包含两张图片,每一张图片使用512个ROIs
      ② 权重衰减:0.0001, 动量:0.9
      ③ 起初60k个mini_batch的学习率是0.02,接下来20k个为0.002
      ④ 每张图片,在训练的时候使用2000个proposals(然后从中随机选取512个ROIs),测试的时候使用1000个。
    (2)Faster R-cnn(on consistent proposals)
    使用FPN效果好的原因:
      ① 增加了输入图片的分辨率,这里使用的是800(以前是600)
      ② 每张图片使用512个ROIs进行训练,可以加快收敛(以前是64个ROIs)
      ③ 使用了5种尺寸的anchor(以前的是4种尺寸,增加了322
      ④ 测试的时候,每张图片使用1000个proposals(以前是300个)

    相关文章

      网友评论

        本文标题:FPN读书笔记

        本文链接:https://www.haomeiwen.com/subject/pauleftx.html