二、Tesseract_OCR 合并字库

作者: LinJF | 来源:发表于2019-07-25 15:53 被阅读0次

二、Tesseract_OCR 合并字库
机器学习之识别验证码
字体
react-native-vector-icons的使用
在线字库无法使用
制作汉字库
字符集、字符编码
调用调用tesseract_ocr实现OCR（二）
蓝桥杯2018真题——明码
研究道藏、古籍工具之输入法，工欲善其事必先利其器

1.前期准备工作：

1.需要生成的字符集 .tif文件，位置文件 .box文件

现在有三个需要合并的字典

（1）.（zwp1.test.exp0.tif，zwp1.test.exp0.box）

（2）.（zwp82.test.exp0.tif，zwp83.test.exp0.box）

（3）. (zwp83.test.exp0.tif, zwp83.test.exp0.box)

box和tif文件

2.合并过程：

1、先生成相对应的 .tr 文件（如果你之前训练的.tr 有的话，可以忽略这步）

tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、从所有文件中提取字符

unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字体特征文件

新建的font.txt文件，在文件中把所有box文件对应的字体特征都加进去（如果不知道，可以去原来考出来的字库文件找font_properties文件查看）

test 0 0 0 0 0

test 0 0 0 0 0

然后执行如下命令：

mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字体特征文件

4 、聚集所有.tr 文件

cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件，把unicharset, inttemp, normproto, pfftable，shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚集合并)

rename normproto zwpnew.normproto

rename inttemp zwpnew.inttemp

rename pffmtable zwpnew.pffmtable

rename shapetable zwpnew.shapetable

rename unicharset zwpnew.unicharset

重命名文件

6、合并所有文件生成一个大的字库文件

combine_tessdata zwpnew.

合并文件

7、最后文件夹中就可以看到生成的.traineddata训练库

.traineddata训练库

一、Tesseract4.0训练字库

网友评论

OCR

本文标题：二、Tesseract_OCR 合并字库

本文链接：https://www.haomeiwen.com/subject/axuhrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

二、Tesseract_OCR 合并字库

1.前期准备工作：

2.合并过程：

相关文章

二、Tesseract_OCR 合并字库

机器学习之识别验证码

字体

react-native-vector-icons的使用

在线字库无法使用

制作汉字库

字符集、字符编码

调用调用tesseract_ocr实现OCR（二）

蓝桥杯2018真题——明码

研究道藏、古籍工具之输入法，工欲善其事必先利其器

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

OCR