文章由商汤科技、北航和香港理工大学共同完成,链接地址:https://arxiv.org/pdf/1903.11800.pdf
摘要
- 场景文本检测是场景文本识别系统中的重要步骤
- 通过mask-rcnn的方式取得了显著的成果
- 本文采用了一种基于mask-rcnn的新方法 PMTD
- PMTD不同于基于mask R-CNN生成的二值文本掩码,PMTD在位置感知监控的指导下进行像素级回归,为每个文本实例生成一个信息量更大的软文本掩码。
- PMTD在文本框的生成方面,将二维掩膜重新解释为三维空间,病引入一种新的平面聚类算法,根据三维形状得到最优文本框。
引文
原来基于掩膜算法(可以看一下参考文献)的不足:
- 过于简化的监督
- 不精确的分割标签
- 错误传播
PMTD
使用文本区域和背景区域之间执行“软”语义分割,而不是用像素级的二值分类分为背景和实例
Previous methods aim to find {0, 1} label for each pixel while PMTD assigns a soft pyramid label of the value ∈ [0, 1].
文本实例中的每个像素都指定了一个软金字塔标签(0和1之间的实际值),值的大小由到文本框边界的距离决定,这个距离隐式的将形状和位置信息编码到训练数据中
文中提出了一种新的平面聚类方法,从而回归出最优的金字塔
该平面聚类算法以金字塔的四个初始支撑平面为出发点,迭代地对每个支撑平面的最近点进行分组,然后根据聚类点更新支撑平面
由于迭代得到的边界棱锥体涉及的不是边界像素而是支撑平面,因此可以减轻误差传播问题,获得更精确的文本框
网友评论