CVPR2018——华中科技大学+武汉大学
Inspired by :Oriented Response Networks(CVPR2017)
摘要
对自然场景中的文字检测,分类问题对于旋转不敏感,但回归问题对于旋转是敏感的,因此两个任务应当采用不同的特征。之前的方法对两个任务均采用共享特征,导致性能下降。因此提出采用不同的特征来进行分类和回归任务,回归分支网络通过旋转卷积核提取旋转敏感的特征,分类分支通过池化旋转敏感性特征来提取旋转不变性特征。效果有较大提升。
图1 特征可视化网络结构如下图,采用旋转卷积核,分类特征通过旋转池化层得到,同时引入Inception block来扩张感受野,其中有三种不同尺度的卷积核。网络以SSD(VGG-16)结构为基础,每层输出的旋转敏感性特征之后接两个分支,一个分支用于回归,另一分支经过旋转池化之后得到分类特征。
图2 网络结构Rotation-Sensitive Regression
网络通过activate rotating filters(ARF)来提取旋转敏感性特征,ARF由标准卷积核及其旋转克隆体组成,假设标准卷积核为,其中是卷积核尺寸,是卷积核的数量(一个标准卷积核旋转个不同的角度,最后得到个不同的卷积核)。ARF通过将标准卷积核旋转不同的角度来得到其个克隆体,对应为:,令和代表输入特征图和输出特征图的第个通道。ARF由下式得到输出:
其中代表的第个旋转通道,输出特征图为通道的。实验中令。
同时,为了令感受野适应长条形的文本,采用Inception block来扩张感受野,分别为不同的阶段设置卷积核为:、、。
Rotation-Invariant Classification
通过池化层来得到旋转不变性特征,假设输入的旋转敏感性特征图为(通道),旋转不变特征由最大池化得到,计算定义为:
因为池化操作是无序的,而且应用在所有个通道上,因此赤化之后的特征是具备旋转不变性的。
Default Boxes and Prediction
回归分支产生从default box:到四边形的偏移量,四边形表示为,其中,,对于每个default box,预测产生分类得分和四边形位置偏移,,且有:。其中,分别为default box的宽和高。
Groung Truth
第一个点的选择对于回归效果有一定影响,根据四边形到其对应的最大外接矩形的距离来决定第一个点的位置。(参考Textboxes++: A single-shot oriented scene text detector)
Loss Function
在进行default boxes和ground-truth boxes的匹配时,采用四边形的最小内接水平矩形框来匹配。
采用与SSD类似的损失函数:
代表第i个default box和第j个ground truth匹配成功,否则就为0,表示置信度分数,表示预测的位置,表示实际标注。表示default boxes的数量,。
Experiments
优化算法:ADAM
ratios of default boxes:1,2,3,5,1/2,1/3,1/5 or 1,2,3,5,7,9,15,1/2,1/3,1/5,1/7,1/9,1/15(针对不同的数据集)
在HRSC2016数据集上的实验效果:
图3 HRSC检测效果
网友评论