通过角点定位和场景分割的多朝向场景文本检测
论文主要思想
通过定位文本边框的角点和相对位置的文本区域分割
网络
网络架构
Net.png特征提取
- 使用全卷积网络来提取特征、角点检测、位置敏感分割
- 模型的主干是预训练的VGG16
- 引入了FPN/DSSD的主干来提取特征
特征提取细节
- 将VGG16的fc6和fc7分别转换为卷积层conv6和conv7
- 额外的卷积层(conv8 conv9 conv10 conv11)叠于conv7上方来增大特征提取的感受野
- 一些DSSD提取的反卷积模块被用天top-down路径中
- 为了更好的检测不同大小的文本,使用从conv11到conv3 256通道的反卷积模块(conv10 9 8 7 4 conv3的特征被重复使用)
- 一共内置6个反卷积模块
- 通过conv11和反卷积模块有更丰富的特征表示,被用来检测角点和预测poistion-sensitive maps
角点检测
- 类似SSD和DSSD,用默认框检测角点
- 每一个默认框输出分类得分和偏移,对应于4种类型的角点
- 采用以一种卷积的方式用两个分支来预测得分和偏移
- 卷积fiters都设置为256
- 每个cell有k个default boxes
- "score"分支和"offset"分支分别为每一个默认框的每种类型角点输出2个分数和4个偏移(2是指在这个位置是否存在一个角点)
Position-Sensitive 分割
- 对于文本边框R,一个g*g的网格被用来将边框分成不同的bins
- 对于每个bin,一个segmentation map被用来决定map中的这个像素是不是属于这个bin
- 重新使用了F3 F4 F7 F8 F9的特征,他们上面建一些卷积模块,遵循角本检测分支的残余模块
- 这些块被resize为F3大小,然后用1 2 4 8 16的scale factor.同一尺寸的的输出被加在一起产生更丰富的特征
- 最后position-sensitive分割图有g*g通道,大小跟输入图一样大,g默认为2
网友评论