美文网首页OCR
二、Tesseract_OCR 合并字库

二、Tesseract_OCR 合并字库

作者: LinJF | 来源:发表于2019-07-25 15:53 被阅读0次

1.前期准备工作:

    1.需要生成的字符集    .tif文件,位置文件     .box文件

   现在有三个需要合并的字典

(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

 (3).  (zwp83.test.exp0.tif,  zwp83.test.exp0.box)

box和tif文件

2.合并过程:

  1、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步)

   tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

   tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

   tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、从所有文件中提取字符

   unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字体特征文件

   新建的font.txt文件,在文件中把所有box文件对应的字体特征都加进去(如果不知道,可以去原来考出来的字库文件找font_properties文件查看)

   test 0 0 0 0 0

   test 0 0 0 0 0

   test 0 0 0 0 0

然后执行如下命令:

   mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字体特征文件

4 、聚集所有.tr 文件

   cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚集合并)

   rename normproto zwpnew.normproto

   rename inttemp zwpnew.inttemp

   rename pffmtable zwpnew.pffmtable

   rename shapetable zwpnew.shapetable

   rename unicharset zwpnew.unicharset

重命名文件

6、合并所有文件 生成一个大的字库文件

   combine_tessdata zwpnew.

合并文件

7、最后文件夹中就可以看到生成的.traineddata训练库

.traineddata训练库

一 、Tesseract4.0训练字库

相关文章

  • 二、Tesseract_OCR 合并字库

    1.前期准备工作: 1.需要生成的字符集 .tif文件,位置文件 .box文件 现在有三个需要合并的字典...

  • 机器学习之识别验证码

    下载 tesseract_ocr 使用composer下载,tesseract_ocr ocr 测试 训练样本数据...

  • 字体

    点阵字库和矢量字库 最早的字库直接把这些点存储起来,就是点阵字库。点阵字库是固定分辨率的,也就是每种字库都有固定的...

  • react-native-vector-icons的使用

    使用 阿里字库+react-native-vector-icons自带字库 1. 阿里字库 网址: https:/...

  • 在线字库无法使用

    折腾了半天,发现中国地区的typekit字库不提供使用,而且typekit字库中汉字字库比较少尴尬

  • 制作汉字库

    1、 用这个软件制作汉字库 生成的汉字库(逐行式) 2、 得到汉子库文件,且将汉字库后缀改为.bin 3、 将汉子...

  • 字符集、字符编码

    字符集 字符集 = 字库表 + 编码字符集 + 字符编码。 字库表:相当于所有可读或可显示字符的数据库、字库表决定...

  • 调用调用tesseract_ocr实现OCR(二)

    摘要 本文档记录了本人如何使用tesseract_ocr实现字符识别功能。该技术文档包括函数解释与工程实例,如需转...

  • 蓝桥杯2018真题——明码

    题目:明码汉字的字形存在于字库中,即便在今天,16点阵的字库也仍然使用广泛。16点阵的字库把每个汉字看成是16x1...

  • 研究道藏、古籍工具之输入法,工欲善其事必先利其器

    中华书局宋体字库 中华书局宋体字库由中华书局古联公司制作,目前已收字符十二万余个,未来将在此基础上不断增加。该字库...

网友评论

    本文标题:二、Tesseract_OCR 合并字库

    本文链接:https://www.haomeiwen.com/subject/axuhrctx.html