Rotation-Sensitive Regression fo

作者: 斯文攸归 | 来源:发表于2019-03-01 09:17 被阅读0次

CVPR2018——华中科技大学+武汉大学

Inspired by :Oriented Response Networks(CVPR2017)

摘要

对自然场景中的文字检测，分类问题对于旋转不敏感，但回归问题对于旋转是敏感的，因此两个任务应当采用不同的特征。之前的方法对两个任务均采用共享特征，导致性能下降。因此提出采用不同的特征来进行分类和回归任务，回归分支网络通过旋转卷积核提取旋转敏感的特征，分类分支通过池化旋转敏感性特征来提取旋转不变性特征。效果有较大提升。

图1 特征可视化

网络结构如下图，采用旋转卷积核，分类特征通过旋转池化层得到，同时引入Inception block来扩张感受野，其中有三种不同尺度的卷积核。网络以SSD(VGG-16)结构为基础，每层输出的旋转敏感性特征之后接两个分支，一个分支用于回归，另一分支经过旋转池化之后得到分类特征。

图2 网络结构

Rotation-Sensitive Regression

网络通过activate rotating filters(ARF)来提取旋转敏感性特征，ARF由标准卷积核及其旋转克隆体组成，假设标准卷积核为 $F_{0}\in R^{k\times k\times N}$ ，其中 $k$ 是卷积核尺寸， $N$ 是卷积核的数量（一个标准卷积核旋转 $N-1$ 个不同的角度，最后得到 $N$ 个不同的卷积核）。ARF通过将标准卷积核旋转不同的角度来得到其 $N-1$ 个克隆体，对应为： $F_{j} ,j=1:N$ ，令 $M_{i}(j)$ 和 $M_{o}(j)$ 代表输入特征图和输出特征图的第 $j$ 个通道。ARF由下式得到输出：

其中 $F_{j}(n)$ 代表 $F_{j}$ 的第 $n$ 个旋转通道，输出特征图为 $N$ 通道的。实验中令 $N=8$ 。

同时，为了令感受野适应长条形的文本，采用Inception block来扩张感受野，分别为不同的阶段设置卷积核为： $3\times 3+3\times 9+9\times 3$ 、 $3\times 3+3\times 7+7\times 3$ 、 $3\times 3+3\times 5+5\times 3$ 。

Rotation-Invariant Classification

通过池化层来得到旋转不变性特征，假设输入的旋转敏感性特征图为 $M_{or}$ （ $N$ 通道），旋转不变特征 $M_{pooling}$ 由最大池化得到，计算定义为：

因为池化操作是无序的，而且应用在所有 $N$ 个通道上，因此赤化之后的特征是具备旋转不变性的。

Default Boxes and Prediction

回归分支产生从default box： $Q_{0} =(v_{1}^0,v_{2}^0,v_{3}^0,v_{4}^0 )=(x_{1}^0,y_{1}^0,x_{2}^0,y_{2}^0,x_{3}^0,y_{3}^0,x_{4}^0,y_{4}^0 )$ 到四边形的偏移量，四边形表示为 $Q=(v_{1},v_{2},v_{3},v_{4} )$ ，其中， $v_{i} =(x_{i} ,y_{i} ),i\in {1,2,3,4}$ ，对于每个default box，预测产生分类得分和四边形位置偏移， $(\Delta x_{1},\Delta y_{2},\Delta x_{2}, \Delta y_{2},\Delta x_{3},\Delta y_{3} ,\Delta x_{4} ,\Delta y_{4} ,c)$ ，且有： $x_{i}=x_{i}^0+\omega _{0}\Delta x_{i} ,i=1,2,3,4,y_{i}=y_{i}^0+\omega _{0}\Delta x_{i},i=1,2,3,4$ 。其中， $w_{0} ,h_{0}$ 分别为default box的宽和高。