RoI Pooling 系列大法（附源码）

作者: CW不要无聊的风格 | 来源:发表于2020-03-29 16:06 被阅读0次

RoI Pooling 系列大法（附源码）
ROI Pooling的相关理解及Fast R-CNN与R-CN
ROI Pooling &ROI Align[转发]
ROI Pooling 和 ROI Align
【目标检测】RoI Pooling及其改进
从ROI Pooling到ROI Align
Faster RCNN源码解读(2)-roi_pooling
Faster Rcnn
检测之旧文新读(四)-Faster R-CNN
[Machine Learning From Scratch]-

Date: 2020/03/29

Author: CW

前言：

RoI Pooling 是目标检测任务中的常见手段，最早在 Faster R-CNN 中提出，作用是将一系列大小不同的 RoI 投影至特征图上，然后通过池化操作将它们处理为一致大小，从而方便后面的网络层进行处理（历史原因，以前的网络结构中最后几层往往是全连接层，因此需要固定的输入尺寸），同时起到了加速计算的作用。

本文先对 RoI Pooling 进行介绍，该方法由于量化误差而带了精度上的损失，后来有大神基于该方法提出了 RoI Align 和 Precise RoI Pooling，本文后半部分会让大伙瞧瞧这倆家伙的玩法。

文末会附上以上三部分相应的源码链接，其中 RoI Pooling 和 RoI Align 是自己手撸的纯 py 实现，作为学习参考使用，Precise RoI Pooling 是作者的原版；基于 cuda 编写，在使用时需要编译。

Outline

壹、RoI Pooling -- 将不同的尺寸变为一致

贰、RoI Align -- 没有量化误差

叄、Precise RoI Pooling -- 无需超参，每个像素点均有梯度贡献

壹、RoI Pooling -- 将不同的尺寸变为一致

先来概述下 RoI Pooling 的操作：

i). RoI 的尺寸通常是对应输入图像的，特征图是输入图像经过一系列卷积层后的输出，因此，首先将 RoI 映射到特征图上的对应区域位置；

ii). 最终需要将尺寸不一的 RoI 变为固定的 n x n 大小，于是将 RoI 平均划分为 n x n 个区域；

iii). 取每个划分而来的区域的最大像素值，相当于对每个区域做 max pooling 操作，作为每个区域的“代表”，这样每个 RoI 经过操作后就变为 n x n 大小

结合一个例子说明下 RoI Pooling 带来的量化误差：

如下图，假设输入图像经过一系列卷积层下采样32倍后输出的特征图大小为8x8，现有一 RoI 的左上角和右下角坐标（x, y 形式）分别为(0, 100) 和 (198, 224)，映射至特征图上后坐标变为（0, 100 / 32）和（198 / 32，224 / 32），由于像素点是离散的，因此向下取整后最终坐标为（0, 3）和（6, 7），这里产生了第一次量化误差。

假设最终需要将 RoI 变为固定的2x2大小，那么将 RoI 平均划分为2x2个区域，每个区域长宽分别为 (6 - 0 + 1) / 2 和 (7 - 3 + 1) / 2 即 3.5 和 2.5，同样，由于像素点是离散的，因此有些区域的长取3，另一些取4，而有些区域的宽取2，另一些取3，这里产生了第二次量化误差。