美文网首页
Rotation-Sensitive Regression fo

Rotation-Sensitive Regression fo

作者: 斯文攸归 | 来源:发表于2019-03-01 09:17 被阅读0次

    CVPR2018——华中科技大学+武汉大学

    Inspired by :Oriented Response Networks(CVPR2017) 

    摘要

    对自然场景中的文字检测,分类问题对于旋转不敏感,但回归问题对于旋转是敏感的,因此两个任务应当采用不同的特征。之前的方法对两个任务均采用共享特征,导致性能下降。因此提出采用不同的特征来进行分类和回归任务,回归分支网络通过旋转卷积核提取旋转敏感的特征,分类分支通过池化旋转敏感性特征来提取旋转不变性特征。效果有较大提升。

    图1 特征可视化

    网络结构如下图,采用旋转卷积核,分类特征通过旋转池化层得到,同时引入Inception block来扩张感受野,其中有三种不同尺度的卷积核。网络以SSD(VGG-16)结构为基础,每层输出的旋转敏感性特征之后接两个分支,一个分支用于回归,另一分支经过旋转池化之后得到分类特征。

    图2 网络结构

    Rotation-Sensitive Regression

    网络通过activate rotating filters(ARF)来提取旋转敏感性特征,ARF由标准卷积核及其旋转克隆体组成,假设标准卷积核为F_{0}\in R^{k\times k\times N}  ,其中k是卷积核尺寸,N是卷积核的数量(一个标准卷积核旋转N-1个不同的角度,最后得到N个不同的卷积核)。ARF通过将标准卷积核旋转不同的角度来得到其N-1个克隆体,对应为:F_{j}  ,j=1:N,令M_{i}(j) M_{o}(j) 代表输入特征图和输出特征图的第j个通道。ARF由下式得到输出:

    其中F_{j}(n) 代表F_{j} 的第n个旋转通道,输出特征图为N通道的。实验中令N=8

    同时,为了令感受野适应长条形的文本,采用Inception block来扩张感受野,分别为不同的阶段设置卷积核为:3\times 3+3\times 9+9\times 33\times 3+3\times 7+7\times 33\times 3+3\times 5+5\times 3

    Rotation-Invariant Classification

    通过池化层来得到旋转不变性特征,假设输入的旋转敏感性特征图为M_{or} N通道),旋转不变特征M_{pooling} 由最大池化得到,计算定义为:

    因为池化操作是无序的,而且应用在所有N个通道上,因此赤化之后的特征是具备旋转不变性的。

    Default Boxes and Prediction

    回归分支产生从default box:Q_{0} =(v_{1}^0,v_{2}^0,v_{3}^0,v_{4}^0 )=(x_{1}^0,y_{1}^0,x_{2}^0,y_{2}^0,x_{3}^0,y_{3}^0,x_{4}^0,y_{4}^0 )到四边形的偏移量,四边形表示为Q=(v_{1},v_{2},v_{3},v_{4}    ),其中,v_{i} =(x_{i} ,y_{i} ),i\in {1,2,3,4},对于每个default box,预测产生分类得分和四边形位置偏移,(\Delta x_{1},\Delta y_{2},\Delta x_{2},  \Delta y_{2},\Delta x_{3},\Delta y_{3} ,\Delta x_{4} ,\Delta y_{4} ,c),且有:x_{i}=x_{i}^0+\omega _{0}\Delta x_{i} ,i=1,2,3,4,y_{i}=y_{i}^0+\omega _{0}\Delta x_{i},i=1,2,3,4。其中,w_{0} ,h_{0} 分别为default box的宽和高。

    Groung Truth

    第一个点的选择对于回归效果有一定影响,根据四边形到其对应的最大外接矩形的距离来决定第一个点的位置。(参考Textboxes++: A single-shot oriented scene text detector

    Loss Function

    在进行default boxes和ground-truth boxes的匹配时,采用四边形的最小内接水平矩形框来匹配。

    采用与SSD类似的损失函数:

    x_{ij} 代表第i个default box和第j个ground truth匹配成功,否则就为0,c表示置信度分数,l表示预测的位置,g表示实际标注。N表示default boxes的数量,\alpha =0.2

    Experiments

    优化算法:ADAM

    ratios of default boxes:1,2,3,5,1/2,1/3,1/5 or 1,2,3,5,7,9,15,1/2,1/3,1/5,1/7,1/9,1/15(针对不同的数据集)

    在HRSC2016数据集上的实验效果:

    图3 HRSC检测效果

    相关文章

      网友评论

          本文标题:Rotation-Sensitive Regression fo

          本文链接:https://www.haomeiwen.com/subject/pvxzyqtx.html