美文网首页
OCR方法之PMTD(Pyramid Mask Text Det

OCR方法之PMTD(Pyramid Mask Text Det

作者: bmjk | 来源:发表于2020-06-02 22:17 被阅读0次

    文章由商汤科技、北航和香港理工大学共同完成,链接地址:https://arxiv.org/pdf/1903.11800.pdf

    摘要

    • 场景文本检测是场景文本识别系统中的重要步骤
    • 通过mask-rcnn的方式取得了显著的成果
    • 本文采用了一种基于mask-rcnn的新方法 PMTD
    • PMTD不同于基于mask R-CNN生成的二值文本掩码,PMTD在位置感知监控的指导下进行像素级回归,为每个文本实例生成一个信息量更大的软文本掩码。
    • PMTD在文本框的生成方面,将二维掩膜重新解释为三维空间,病引入一种新的平面聚类算法,根据三维形状得到最优文本框。

    引文

    原来基于掩膜算法(可以看一下参考文献)的不足:
    1. 过于简化的监督
    2. 不精确的分割标签
    3. 错误传播
    PMTD

    使用文本区域和背景区域之间执行“软”语义分割,而不是用像素级的二值分类分为背景和实例

    Previous methods aim to find {0, 1} label for each pixel while PMTD assigns a soft pyramid label of the value ∈ [0, 1].
    文本实例中的每个像素都指定了一个软金字塔标签(0和1之间的实际值),值的大小由到文本框边界的距离决定,这个距离隐式的将形状和位置信息编码到训练数据中
    文中提出了一种新的平面聚类方法,从而回归出最优的金字塔
    该平面聚类算法以金字塔的四个初始支撑平面为出发点,迭代地对每个支撑平面的最近点进行分组,然后根据聚类点更新支撑平面
    由于迭代得到的边界棱锥体涉及的不是边界像素而是支撑平面,因此可以减轻误差传播问题,获得更精确的文本框
    流程
    Overall architecture of PMTD

    相关文章

      网友评论

          本文标题:OCR方法之PMTD(Pyramid Mask Text Det

          本文链接:https://www.haomeiwen.com/subject/boipzhtx.html