Faster R-CNN论文阅读笔记

作者: Mordekaiser | 来源:发表于2017-07-16 23:21 被阅读1671次

Faster R-CNN论文阅读笔记
Faster R-CNN：使用RPN实时目标检测
TensorFlow Faster R-CNN 实现详解（未完）
Faster R-CNN算法解析
从结构、原理到实现，Faster R-CNN全解析（原创）
Faster R-CNN 论文阅读
论文阅读_Faster R-CNN
Object Detection 3
Faster R-CNN 入坑之源码阅读
Faster R-CNN论文笔记

论文：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Github: Faster R-CNN

如果不了解R-CNN系列，建议先阅读这方面的论文，博客

Abstract

主流的目标检测方法在detection network已经取得了不错的运行时间方面的优化，因此region proposal algorithms成为了一个计算瓶颈。作者本文的关键工作就是提出了Region Proposal Network用来进行候选区域提取，这样可以大大缩短候选区域的提取时间。

Introduction

目标检测网络基本上可以分成两部分：候选区域生成(Region proposals) + 对候选区域进行分类以及bound boxes回归。

Region proposal方法有多种，比如：Selective Search, greedily merges superpixels, EdgeBoxes. 以Selective Search方法为例，相比于高效的检测网络部分，这部分的运行时间高了将近一个数量级，其他方法虽然有一定的提升，但是总的来说，region proposal 部分相比于 detection network 多花了很多时间，运行速度的瓶颈就在于此！作者本文的创新点就在于和传统的生成候选区域的算法不同，作者使用Region proposal network来进行Region proposals. 网络整体结构示意图如下：

Faster R-CNN示意图

对于一副输入图像，将其送入CNN提取特征，然后利用Region Proposal Network提取候选区域（这个过程利用了刚才说的Anchor机制，后面细说）。对每一个候选区域进行分类和bounding box回归，就可以得到检测的结果。不过这里候选区域提取是在CNN的最后一个feature map上提取的，那么问题来了，提取的候选区域怎么映射对应回原图呢？feature map上的框怎么对应上输入图像的框？实际上，就是很直接粗暴的方式：根据特征图和原图的比例，把特征图上的框按比例进行缩放。

Faster R-CNN的网络结构

RPN网络

RPN网络结构如下图所示：

RPN网络结构图

对于任意一副输入图像，将其送入CNN之后，就可以得到相应的feature maps。RPN在CNN的最后一层feature map上滑动。假如最后一个feature map的大小是40 x 60 x channels，那么对于feature map中的每一个像素，用channels x 3 x 3 x 512的卷积核进行卷积，这样可以输出一个512维的特征向量。然后在接上一个1x1x18的卷积核，就可以输出18 = 2x9个评分（9个anchor，每个anchor有两个评分，代表前景，背景的confidence）。在256维特征后面接1x1x36的卷积核就可以得到36个值（9个anchor，每个anchor是4个值，分别代表中心点坐标，宽，高值）。

对于每一个像素都进行预测9个anchor，如果最后一层feature map是40x60大小的话，就要预测40x60x9个anchor，选出前300个得分高的作为候选区域，这样相比于Selective search得到的2000个区域少了很多，而且作者还进行了实验，发现用RPN得到的候选区域比selective search得到的Recall高很多。

RPN网络的训练

正样本选取：和ground truth的IoU值最高的anchor被当作正样本。此外，如果一个anchor和ground truth的IoU超过0.7,则也当成正样本。
负样本选取：如果一个anchor和所有ground truth的IoU低于0.3,则认为是负样本。

对于既不是正样本，也不是负样本的anchor则直接丢弃。超出边界的anchor也丢弃

优化的目标函数如下：

RPN优化的损失函数

第一项表示分类损失，第二项表示回归损失，lambda是权重因子。RPN网络和CNN结合在一起可以实现端到端的训练，CNN在ImageNet预训练。

RPN和Fast R-CNN共享卷积层

RPN和Fast R-CNN（准确来说是Fast R-CNN的分类和bounding box回归部分）都是接在CNN后面的，准确来说应该是这样的：CNN接上RPN，而后是Fast R-CNN。那么，也就是说Fast R-CNN和RPN是共享CNN的。那么这该怎么训练呢？作者给出了3种网络的训练方式：

联合训练
近似联合训练
非近似联合训练

实现细节

将图像resize到短边为600像素，送入神经网络进行检测，并进行非极大值抑制，得到最终结果！

实验结果

state of art!

Faster R-CNN论文阅读笔记
论文：Faster R-CNN: Towards Real-Time Object Detection with ...
Faster R-CNN：使用RPN实时目标检测
论文：Faster R-CNN: Towards Real-Time Object Detection with ...
TensorFlow Faster R-CNN 实现详解（未完）
本文将根据 Mask R-CNN 和 Faster R-CNN 论文以及 TensorFlow 实现的目标检测 ...
Faster R-CNN算法解析
论文地址：Faster R-CNN: Towards Real-Time ObjectDetection with...
从结构、原理到实现，Faster R-CNN全解析（原创）
论文链接 Faster R-CNN Towards Real-Time Object：https://arxiv....
Faster R-CNN 论文阅读
Faster R-CNN 原文：Ren S, He K, Girshick R, et al. Faster R-...
论文阅读_Faster R-CNN
论文地址：https://arxiv.org/pdf/1506.01497.pdfPython官方版本：https...
Object Detection 3
R-CNN三兄弟对比转载自：xiaoiker FASTER R-CNN 相比FAST R-CNN，Faster ...
Faster R-CNN 入坑之源码阅读
Faster R-CNN 原理简述上面就是Faster R-CNN的原理图：首先搭建一个faster rcnn...
Faster R-CNN论文笔记
先前网络模型存在的问题之前的SSPnet和Fast R-CNN已经实现在候选区域(region proposal...