概述：

一些基本概念（IOU，NMS）等请看这里。
摘要：算法主要解决两个问题：

1、提出区域建议网络RPN，快速生成候选区域；

2、通过交替训练，使RPN和Fast-RCNN网络共享参数。

RPN是Faster R-CNN提出来的，是为了进行最后的box预测的预先粗选框架。

在虚线之上是基础网络类似VGG16，ZF网络。这里的target是背景。
首先是3x3的卷积（图中有256个输出），然后通过1x1卷积输出分为两路，其中一路输出是目标和非目标的概率，另一路输出box相关的四个参数，包括box的中心坐标x和y，box宽w和长h。

在这里，对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

关于9种anchor

这是rpn网络的核心，对于特征图中的每个点，这里给出9种box框架，论文中基准窗大小为16，给了（8、16、32）三种倍数和（0.5、1、2）三种比例，这样能够得到一共9种尺度的anchor。如图：

训练RPN网络

RPN网络的loss function是对RPN提取的框进行训练的，也就是针对box框中，是否有物体，和box坐标的粗略回归。这里的训练，每次针对一张图片，这里需要给RPN网络中预测box框进行标记。怎么标记：
论文中采用了这样的规则：

1）假如某anchor与任一目标区域的IoU最大，则该anchor判定为有目标；
2）假如某anchor与任一目标区域的IoU>0.7，则判定为有目标；
3）假如某anchor与任一目标区域的IoU<0.3，则判定为背景。所谓IoU，就是预测box和真实box的覆盖率，其值等于两个box的交集除以两个box的并集。其它的anchor不参与训练（跨越图像边界的anchor弃去不用，跨越图像边界的anchor弃去不用）。
于是，代价函数定义为：

bbox回归只对包含目标的anchor计算误差，如果anchor不包含目标，box输出位置无所谓。所以对于bbox的ground truth，只考虑判定为有目标的anchor，并将其标注的坐标作为ground truth。此外，计算bbox误差时，不是比较四个角的坐标，而是tx，ty，tw，th，具体计算如下：

作者采用四步训练法：

1）单独训练RPN网络，网络参数由预训练模型载入；

2）单独训练Fast-RCNN网络，将第一步RPN的输出候选区域作为检测网络的输入。具体而言，RPN输出一个候选框，通过候选框截取原图像，并将截取后的图像通过几次conv-pool，然后再通过roi-pooling和fc再输出两条支路，一条是目标分类softmax，另一条是bbox回归。截止到现在，两个网络并没有共享参数，只是分开训练了；

3）再次训练RPN，此时固定网络公共部分的参数，只更新RPN独有部分的参数；

4）那RPN的结果再次微调Fast-RCNN网络，固定网络公共部分的参数，只更新Fast-RCNN独有部分的参数。

5 ) 实现细节，比如RPN网络得到的大约2万个anchor不是都直接给Fast-RCNN，因为有很多重叠的框。文章通过非极大值抑制的方法，设定IoU为0.7的阈值，即仅保留覆盖率不超过0.7的局部最大分数的box（粗筛）。最后留下大约2000个anchor，然后再取前N个box（比如300个）给Fast-RCNN。Fast-RCNN将输出300个判定类别及其box，对类别分数采用阈值为0.3的非极大值抑制（精筛），并仅取分数大于某个分数的目标结果（比如，只取分数60分以上的结果）。

如下图所示这是训练RPN网络：