本文的主要目的:
1. 消除网络中多余的过程和组件,设计快速而准确的场景文本检测器,可检测任意方向和四边形形状的文本。
2. 借鉴U-Net的思路,逐步融合特征图,设计了一个全卷积网络结构,可以直接预测文本区域,通过Locality-Aware NMS产生预测结果。
3. 精心设计了损失函数。损失函数包含分数图score map 损失和几何geometry损失。
可改进方向:优化网络结构,针对不同任务或者数据,设计更合适的损失函数。
重点关注部分:
1. 标签的产生过程,包括四边形分数图的产生过程和几何图的产生过程。(3.3. Label Generation)
2. 损失函数的实现过程。(3.4. Loss Functions)
3. 局部感知非极大抑制思路。(3.6. Locality-Aware NMS)
代码实现
Abstract
先前的场景文本检测方法已经在各种基准测试中取得了可喜的性能。但是,即使在配备有深度神经网络模型的情况下,它们在处理具有挑战性的场景时通常也达不到要求,因为总体性能取决于pipeline中多个阶段和组件的相互作用。在这项工作中,我们提出了一个简单而功能强大的pipeline,该pipeline可以在自然场景中快速准确地检测文本。该pipeline可通过单个神经网络直接预测完整图像中任意方向和四边形形状的单词或文本行,从而消除了不必要的中间步骤(例如候选集合和单词划分)。我们pipeline的简单性使得我们可以集中精力设计损失函数和神经网络架构。在包括ICDAR 2015,COCO-Text和MSRA-TD500在内的标准数据集上进行的实验表明,该算法在准确性和效率上均明显优于最新方法。在ICDAR 2015数据集上,提出的算法在720p分辨率下以13.2fps的速度获得了0.7820的F得分。
1. Introduction
最近,提取和理解包含在自然场景中的文本信息变得越来越重要和流行,这可以通过ICDAR系列竞赛的空前大量的参与者[30、16、15]和NIST开展的TRAIT 2016评估来证明 [1]。
作为后续过程的前提,文本检测在整个文本信息提取和理解过程中起着至关重要的作用。先前的文本检测方法[2、33、12、7、48]已经在该领域的各种基准上获得了有希望的性能。文本检测的核心是设计功能,以区分文本和背景。传统上,特征是手动设计的[5、25、40、10、26、45]以捕获场景文本的特性,而在基于深度学习的方法中[3、13、11、12、7、48]有效特征是直接从训练数据中学到。
但是,现有的方法,无论是常规方法还是基于深度神经网络的方法,都主要由几个阶段和组件组成,这可能是次优且耗时的。因此,这种方法的准确性和效率仍然不能令人满意。
在本文中,我们提出了只有两个阶段的快速准确的场景文本检测pipeline。
pipeline利用了完全卷积网络(FCN)模型,该模型可直接生成单词或文本行级别的预测,而无需进行冗余和缓慢的中间步骤。产生的文本预测(可以是旋转的矩形或四边形)将发送到“非最大抑制”以产生最终结果。与现有方法相比,根据标准基准的定性和定量实验,所提出的算法可显着提高性能,同时运行速度更快。
具体来说,所提出的算法在ICDAR 2015 [15]上达到0.7820的F值(在多尺度下进行测试时为0.8072),在MSRA-TD500 [40]上达到0.7608的F值,在COCO-Text [36]上达到0.3945的F值,先进的性能算法,平均所需时间更少(对于性能最佳的Titan-X GPU,在720p分辨率下为13.2fps,对于速度最快的模型为16.8fps)。
这项工作的贡献是三方面的:
- 我们提出一种场景文本检测方法,该方法包括两个阶段:完全卷积网络和NMS合并阶段。 FCN直接生成文本区域,不包括多余且耗时的中间步骤。
- pipeline可以灵活地生成单词级别或行级别的预测,根据特定的应用,其几何形状可以为旋转方框或四边形。
- 所提出的算法在准确性和速度上均明显优于最新方法。
2. Related Work
长期以来,场景文本检测和识别一直是计算机视觉中的活跃研究主题。研究了许多启发性的想法和有效的方法[5、25、26、24、27、37、11、12、7、41、42、31]。全面的评论和详细的分析可以在调查论文中找到[50,35,43]。本节将重点介绍与本文提出的算法最相关的工作。
传统方法依赖于手动设计的功能。基于笔划宽度变换(SWT)[5]和最大稳定的末梢区域(MSER)[25、26]的方法通常通过边缘检测或末梢区域提取来寻找候选字符。张等[47]利用文本的局部对称性,设计了用于文本区域检测的各种特征。FASText[2]是一种快速的文本检测系统,它对著名的FAST关键点检测器进行了修改和改进,以进行笔画提取。但是,这些方法在准确性和适应性方面都落后于基于深度神经网络的方法,尤其是在处理挑战性场景(例如低分辨率和几何失真)时。
最近,场景文本检测领域进入了一个新时代,基于深度神经网络的算法[11、13、48、7]逐渐成为主流。黄等[11]首先使用MSER找到候选者,然后使用深度卷积网络作为强分类器以修剪假阳性。 Jaderberg等人的方法。 [13]以滑动窗口方式扫描图像,并使用卷积神经网络模型为每个尺度生成密集的热图。后来,Jaderberg等[12]使用CNN和ACF来搜寻候选单词,并使用回归进一步完善它们。田等[34]开发了垂直锚并构建了CNN-RNN联合模型来检测水平文本行。与这些方法不同,Zhang等[48]提出利用FCN [23]生成热图,并使用分量投影进行方向估计。这些方法在标准基准上获得了出色的性能。但是,如图2(a-d)所示,它们主要由多个阶段和组件组成,例如通过后置过滤,候选聚集,行形成和单词分隔产生的误报消除。多个阶段和组件可能需要详尽的调整,导致性能欠佳,并增加了整个pipeline的处理时间。
在本文中,我们设计了一个基于FCN的深层pipeline,直接针对文本检测的最终目标:单词或文本行级别检测。如图2(e)所示,该模型放弃了不必要的中间组件和步骤,并允许端到端训练和优化。最终的系统配备了单个轻量级神经网络,在性能和速度上都明显优于其他所有方法。

3. Methodology
该算法的关键组成部分是神经网络模型,该模型经过训练可以直接从完整图像中预测文本实例的存在及其几何形状。 该模型是适用于文本检测的全卷积神经网络,可输出单词或文本行的每像素密集预测。 这消除了中间步骤,例如候选提案,文本区域形成和单词划分。 后处理步骤仅包括对预测的几何形状进行阈值处理和NMS。 该检测器被称为EAST,因为它是一种高效,准确的场景文本检测pipeline。
3.1. Pipeline
图2(e)说明了我们的pipeline的高级概述。 该算法遵循DenseBox [9]的一般设计,其中将图像馈入FCN,并生成像素级文本得分图和几何图形的多个通道。
预测通道之一是分数图,其像素值在[0,1]的范围内。 其余通道表示从每个像素的角度将单词括起来的几何形状。 分数代表在相同位置预测的几何形状的置信度。
我们针对文本区域尝试了两种几何形状,即旋转框(RBOX)和四边形(QUAD),并为每种几何设计了不同的损失函数。 然后将阈值应用于每个预测区域,在该区域中,其分数超过预定义阈值的几何形状被视为有效并保存以供以后进行非最大抑制。 NMS之后的结果被认为是pipeline的最终输出。
3.2. Network Design
在设计用于文本检测的神经网络时,必须考虑几个因素。如图5所示,由于单词区域的大小变化很大,因此确定大单词的存在将需要神经网络后期的特征,而预测包围小单词区域的准确几何形状则需要早期的低级信息。因此,网络必须使用不同级别的特征来满足这些要求。 HyperNet [19]在特征图上满足了这些条件,但是在大型特征图上合并大量通道会大大增加后期的计算开销。
为了解决这个问题,我们采用了U型[29]的思想,可以逐渐合并特征图,同时保持较小的上采样分支。我们在一起最终得到了一个既可以利用不同级别的特征又可以保持少量计算成本的网络。
我们的模型的示意图如图3所示。该模型可以分解为三个部分:特征提取主干,特征合并分支和输出层。
主干可以是在ImageNet [4]数据集上经过预训练的卷积网络,具有交错的卷积和池化层。从主干中提取四个级别的特征图,表示为fi,其大小分别为输入图像的1/32,1/16,1/8和1/4。在图3中,描绘了PVANet [17]。在我们的实验中,我们还采用了众所周知的VGG16 [32]模型,该模型提取了pooling-2到pooling-5之后的特征图。
在特征合并分支中,我们逐渐将它们合并:

每个卷积的输出通道数如图3所示。我们将分支中卷积的通道数保持较小,这仅增加了主干上计算开销的一小部分,从而使网络计算效率更高。 最终输出层包含若干conv1×1运算,以将32个通道的特征图投影到1个通道的分数图Fs和多个通道几何图Fg中。几何输出可以是RBOX或QUAD之一,汇总在Tab 1中。

对于RBOX,其几何形状由4个轴对齐的边界框(axis-aligned bounding box: AABB) R和1个通道旋转角度θ表示。 R的形式与[9]中相同,其中4个通道分别代表从像素位置到矩形的顶部,右侧,底部,左侧边界的4个距离。

3.3. Label Generation
3.3.1 Score Map Generation for Quadrangle

3.3.2 Geometry Map Generation

3.4. Loss Functions

3.4.1 Loss for Score Map

3.4.2 Loss for Geometries
文本检测的一个挑战是自然场景图像中文本的大小差异很大。 直接使用L1或L2损失进行回归将引导损失偏向更大和更长的文本区域。 由于我们需要为大型和小型文本区域生成准确的文本几何形状预测,因此回归损失应该是比例不变的。
因此,我们在RBOX回归的轴对齐的边界框(AABB)部分采用IoU损失,并在QUAD回归中采用尺度归一化的平滑L1损失。



3.5. Training
使用ADAM [18]优化器对网络进行端到端训练。 为了加快学习速度,我们从图像中均匀采样512x512裁剪块,以形成大小为24的小批量。ADAM的学习率从1e-3开始,每27300个小批量下降到十分之一,然后在1e-5停止。 训练网络,直到性能不再提高。
3.6. Locality-Aware NMS

4. Experiments
为了将提出的算法与现有方法进行比较,我们在三个公共基准上进行了定性和定量实验:ICDAR2015,COCO-Text和MSRA-TD500。
实验部分参考原论文
4.6. Limitations
检测器可以处理的文本实例的最大大小与网络的接收场成比例。 这限制了
网络能够预测甚至更长的文本区域(例如跨图像的文本行)的功能。 此外,由于垂直文本实例仅占用ICDAR 2015训练集中一小部分文本区域,因此该算法可能会遗漏或给出不准确的预测。
5. Conclusion and Future Work
我们提供了一种场景文本检测器,该检测器可通过单个神经网络直接从完整图像中生成单词或行级别的预测。 通过结合适当的损失函数,检测器可以根据特定的应用预测文本区域的旋转矩形或四边形。 在标准基准上进行的实验证实,该算法在准确性和效率上都大大优于以前的方法。 未来研究的可能方向包括:
- 修改几何公式以直接检测弯曲文本;
- 将检测器与文本识别器集成在一起;
- 将思想扩展到一般目标检测。
网友评论