美文网首页
自然场景下的文字识别

自然场景下的文字识别

作者: ruiminlang | 来源:发表于2019-01-14 15:56 被阅读0次

数据说明

训练集:组织方不提供统一的训练集,参赛者可以使用任意训练数据,如 COCO-Text,也可以使用自己构建的数据库。
测试集:组织方提供以OPPO手机采集的图像和人工标注的图像作为 groundtruth 的测试集。在数据目录下image文件夹包含测试图片,后缀为.jpg。测试集中包含合成的图片和真实的图片,图片中,中英文都可能包含,且中英文都需要识别。图中出现的文字都需要检测到并识别出来,由于人工标注的原因,可能一些模糊的文字也被标注了,所以选手需要尽可能的检测并识别图中的文字。评分时文本内容不区分大小写。测试集图片样例见下面示例部分。

结果提交说明

运行环境

  • Ubuntu 16.04
  • GTX1080Ti 11GB
  • pyotrch=0.4.1/tensorflow=1.4.0

可执行文件

把需要的包写在requirements.txt,根据选手提供的requirements.txt在服务器上安装好项目的依赖包,同时需要一个test.py文件,运行python test.py --data_dir xxxxxxx(测试集数据目录),返回结果应为一个json文件(scenetext_result.json),格式如数据输出部分所示。并保存到目录下的../../scenetext_result文件夹中。
例如:
给定test.py,应能够在服务器运行环境中按如下格式顺利运行:

python test.py --data_dir xxxxxxxx(测试集数据目录)

数据输入

根据上面给定的测试集说明,请选手在实现中自己定义数据的输入,通过--data_dir参数定义的数据路径实现数据的读入。

数据输出

选手在测试集返回的结果应为JSON文件,格式如下:

{
    "RCTW_1332.jpg": {
              "box_num": 5, 
              "annotations": [
                             {"text": "ook good", "bbox": [1937.0, 1585.0, 1937.0, 1512.0, 2457.0, 1512.0, 2457.0, 1585.0]},
                             {"text": "屈臣氏", "bbox": [2348.0, 1475.0, 2348.0, 1362.0, 2578.0, 1362.0, 2578.0, 1475.0]},
                             {"text": "tsons", "bbox": [1944.0, 1454.0, 1944.0, 1358.0, 2286.0, 1358.0, 2286.0, 1454.0]}, 
                             {"text": "面", "bbox": [3315.0, 884.0, 3315.0, 788.0, 3407.0, 788.0, 3407.0, 884.0]},                                           
                             {"text": "美丽·每一个你", "bbox": [1676.0, 1837.0, 1685.0, 1675.0, 2748.0, 1748.0, 2729.0, 1925.0]}
                             ] 
                      }
        ...
 }

其中"RCTW_1332.jpg"为图片名,"box_num"为图中识别出的文本区域数目,"annotations"包含"text"为识别的文本内容;"bbox"为该文本bounding box的四个顶点坐标(左下角开始,顺时针)。

评价标准

  • 我们会找到和ground truth重合度最大的框分别计算全匹配和编辑距离的得分,最后以全匹配和编辑距离的加权得分排名。
  • 采用 F1-score 为第一评价标准。
  • 在上一标准相同的情况下,采用平均精度 AP 作为第二评价标准。

提交方式

参赛队伍需将整个项目打包为学校名称+参赛队伍名称+课题名.zip。通过大赛官方邮箱进行提交(TOP@iconos.tech)。每支队伍每周最多提交两次。

测试集图片示例:

SynthText_666.jpg
SynthText_663.jpg
SynthText_736.jpg
COCO-Text_25.jpg
COCO-Text_26.jpg
COCO-Text_60.jpg
COCO-Text_68.jpg
ground_truth示例:
"COCO-Text_68.jpg": {
"box_num": 12, 
"annotations": [
{"text": "english.", 
"bbox": [45.302089802154626, 128.99126336411518, 45.302089802154626, 111, 91.95621819276546, 111, 91.95621819276546, 128.99126336411518]},
 {"text": "groceries", 
"bbox": [64.30208980215463, 151.29659907567253, 64.30208980215463, 133, 119.0, 133, 119.0, 151.29659907567253]}, 
{"text": "cash",
 "bbox": [199.69383445945945, 326.5822784810127, 199.69383445945945, 317.72151898734177, 223.7647804054054, 317.72151898734177, 223.7647804054054, 326.5822784810127]}, 
{"text": "licence", 
"bbox": [90.83222341462272, 78.88336060381162, 90.83222341462272, 67, 148.99325315721177, 67, 148.99325315721177, 78.88336060381162]},
 {"text": "food",
 "bbox": [181.30208980215463, 134.11887561680845, 181.30208980215463, 117, 208.0, 117, 208.0, 134.11887561680845]},
 {"text": "-OFF",
 "bbox": [124.8095000601907, 153.91811320754715, 124.8095000601907, 135.13471698113204, 143.4096991414317, 135.13471698113204, 143.4096991414317, 153.91811320754715]},
 {"text": "TURKISH",
 "bbox": [93.63946562631249, 131.1580134524002, 93.63946562631249, 113.9533090916126, 138.05730046461542, 113.9533090916126, 138.05730046461542, 131.1580134524002]}, 
{"text": "L", 
"bbox": [144.23180738811638, 153.71283018867928, 144.23180738811638, 136.67433962264153, 151.21972748493621, 136.67433962264153, 151.21972748493621, 153.71283018867928]},
 {"text": "123", 
"bbox": [316.24788851351354, 217.72151898734177, 316.24788851351354, 210.126582278481, 327.6499155405406, 210.126582278481, 327.6499155405406, 217.72151898734177]},
 {"text": "open", 
"bbox": [101.99437462263904, 92.01892028544718, 101.99437462263904, 81, 138.99999516173438, 81, 138.99999516173438, 92.01892028544718]},
 {"text": "off", 
"bbox": [108, 64.99048221581857, 108, 53.90951531586662, 133.4123994131998, 53.90951531586662, 133.4123994131998, 64.99048221581857]}, 
{"text": "POLISH",
 "bbox": [143.6816366941408, 132.60378692809667, 143.6816366941408, 115.83281461001798, 178.7255778165681, 115.83281461001798, 178.7255778165681, 132.60378692809667]}
], 
"ground_truth": "english.grocerieslicenceTURKISHopenoff-OFFPOLISHLfoodcash123"
}

相关文章

网友评论

      本文标题:自然场景下的文字识别

      本文链接:https://www.haomeiwen.com/subject/rofjdqtx.html