1.前期准备工作:
1.需要生成的字符集 .tif文件,位置文件 .box文件
现在有三个需要合并的字典
(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)
(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)
(3). (zwp83.test.exp0.tif, zwp83.test.exp0.box)
![](https://img.haomeiwen.com/i18295877/3b14c13bf6094bca.jpg)
2.合并过程:
1、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步)
tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train
tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train
tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train
![](https://img.haomeiwen.com/i18295877/b624379cb4cdf9bc.jpg)
2、从所有文件中提取字符
unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box
![](https://img.haomeiwen.com/i18295877/566e3f0c21a7b1b1.jpg)
3、生成字体特征文件
新建的font.txt文件,在文件中把所有box文件对应的字体特征都加进去(如果不知道,可以去原来考出来的字库文件找font_properties文件查看)
test 0 0 0 0 0
test 0 0 0 0 0
test 0 0 0 0 0
然后执行如下命令:
mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr
![](https://img.haomeiwen.com/i18295877/66760379dcbe5e60.jpg)
4 、聚集所有.tr 文件
cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr
![](https://img.haomeiwen.com/i18295877/4197739454f9c2e6.jpg)
5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚集合并)
rename normproto zwpnew.normproto
rename inttemp zwpnew.inttemp
rename pffmtable zwpnew.pffmtable
rename shapetable zwpnew.shapetable
rename unicharset zwpnew.unicharset
![](https://img.haomeiwen.com/i18295877/756f78624765bd95.jpg)
6、合并所有文件 生成一个大的字库文件
combine_tessdata zwpnew.
![](https://img.haomeiwen.com/i18295877/190db50281f49c81.jpg)
7、最后文件夹中就可以看到生成的.traineddata训练库
![](https://img.haomeiwen.com/i18295877/d41a1d6eb597e2c8.jpg)
网友评论