美文网首页
Mac中Tesseract样本训练

Mac中Tesseract样本训练

作者: SumerZZ100 | 来源:发表于2018-06-21 12:01 被阅读134次

安装tesseract

brew uninstall tessseract
brew install --with-training-tools tesseract

下载 jTessBoxEditor

准备样本图片

打开 jTessBoxEditor -> Tools -> MergeTIFF 选择图片,合并成zxs.fontjj.001.tif文件

生成box文件

tesseract zxs.fontjj.001.tif zxs.fontjj.001 -l eng -psm 7 batch.nochop makebox

修改box文件

打开 jTessBoxEditor -> Box Editor ->open 打开zxs.fontjj.001.tif。工具会自动加载对应的box文件
手工修改样本训练集

生成font_properties

echo fontjj 0 0 0 0 0 >font_properties

生成训练文件

tesseract zxs.fontjj.001.tif zxs.fontjj.001 -l eng -psm 7 nobatch box.train

会在当前目录生成.tr文件

生成字符集文件

unicharset_extractor zxs.fontjj.001.box

生成名为unicharset的字符集文件

生成shape文件

shapeclustering -F font_properties -U unicharset -O fontjj.unicharset zxs.fontjj.001.tr

生成聚集字符特征文件

生成3个特征字符文件,unicharset、inttemp、pffmtable

mftraining -F font_properties -U unicharset -O fontjj.unicharset zxs.fontjj.001.tr

生成字符正常化特征文件

生成正常化特征文件normproto

cntraining zxs.fontjj.001.tr

更名

把以上生成的特征文件更名

rename normproto fontyp.normproto
rename inttemp fontyp.inttemp
rename pffmtable fontyp.pffmtable 
rename unicharset fontyp.unicharset
rename shapetable fontyp.shapetable

合并训练文件

生成fontjj.traineddata文件

combine_tessdata fontjj.

相关文章

网友评论

      本文标题:Mac中Tesseract样本训练

      本文链接:https://www.haomeiwen.com/subject/ivjqyftx.html