OCR方法之PMTD(Pyramid Mask Text Det

作者: bmjk | 来源:发表于2020-06-02 22:17 被阅读0次

文章由商汤科技、北航和香港理工大学共同完成，链接地址：https://arxiv.org/pdf/1903.11800.pdf

摘要

场景文本检测是场景文本识别系统中的重要步骤

通过mask-rcnn的方式取得了显著的成果

本文采用了一种基于mask-rcnn的新方法 PMTD

PMTD不同于基于mask R-CNN生成的二值文本掩码，PMTD在位置感知监控的指导下进行像素级回归，为每个文本实例生成一个信息量更大的软文本掩码。

PMTD在文本框的生成方面，将二维掩膜重新解释为三维空间，病引入一种新的平面聚类算法，根据三维形状得到最优文本框。

引文

原来基于掩膜算法（可以看一下参考文献）的不足：

过于简化的监督

不精确的分割标签

错误传播

PMTD

使用文本区域和背景区域之间执行“软”语义分割，而不是用像素级的二值分类分为背景和实例

Previous methods aim to find {0, 1} label for each pixel while PMTD assigns a soft pyramid label of the value ∈ [0, 1].
文本实例中的每个像素都指定了一个软金字塔标签（0和1之间的实际值），值的大小由到文本框边界的距离决定，这个距离隐式的将形状和位置信息编码到训练数据中
文中提出了一种新的平面聚类方法，从而回归出最优的金字塔
该平面聚类算法以金字塔的四个初始支撑平面为出发点，迭代地对每个支撑平面的最近点进行分组，然后根据聚类点更新支撑平面
由于迭代得到的边界棱锥体涉及的不是边界像素而是支撑平面，因此可以减轻误差传播问题，获得更精确的文本框

流程

Overall architecture of PMTD

网友评论

本文标题：OCR方法之PMTD(Pyramid Mask Text Det

本文链接：https://www.haomeiwen.com/subject/boipzhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

OCR方法之PMTD(Pyramid Mask Text Det

摘要

引文

原来基于掩膜算法（可以看一下参考文献）的不足：

PMTD

流程

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读