1.准备样本图片
文件命名格式[lang].[fontname].exp[num].png
![](https://img.haomeiwen.com/i16386400/be497f04b0d29aa1.png)
2.使用tesseract生成box文件
$ /usr/local/tesseract/bin/tesseract my_lang.test.exp0.png my_lang.test.exp0 batch.nochop makebox
3.使用jTessBoxEditor矫正box文件的错误
4.生成font_properties文件
$ echo test 0 0 0 0 0 > font_properties
5.使用tesseract生成tr训练文件
$ /usr/local/tesseract/bin/tesseract my_lang.test.exp0.png my_lang.test.exp0 nobatch box.train
6.生成字符集文件
$ /usr/local/tesseract/bin/unicharset_extractor my_lang.test.exp0.box
7.生成shape文件
$ /usr/local/tesseract/bin/shapeclustering -F font_properties -U unicharset -O my_lang.unicharset my_lang.test.exp0.tr
8.生成聚字符特征文件
$ /usr/local/tesseract/bin/mftraining -F font_properties -U unicharset -O my_lang.unicharset my_lang.test.exp0.tr
9.生成字符正常化特征文件
$ /usr/local/tesseract/bin/cntraining my_lang.test.exp0.tr
10.文件重命名
重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
11.合并训练文件
$ /usr/local/tesseract/bin/combine_tessdata my_lang
网友评论