美文网首页
Tess4J字库训练

Tess4J字库训练

作者: AIGame孑小白 | 来源:发表于2021-07-01 00:04 被阅读0次

    Tess4J字库训练

    • 首先准备好你的图片
    • 使用VietOCR或者jTessBoxEditorFX生成tif文件

    找到你的VietOCR或者jTessBoxEditorFX目录,双击.bat文件运行

    强调一下文件格式

    • 格式:[语言].[名称].exp[数字].tif
      1. [语言]必须是在Tesseract-OCR/tessdata目录下存在的,当它生成tif文件会用这里面的语言包去识别,所以你要确保你的语言前缀是正确的!
      2. [名称]是你自定义的名称,整个训练完成后这就是你自己的语言包前缀啦!
      3. [数字]随便带一个1就行,没什么用,不过你可以当作你的版本号做个标识。

    然后继续

    • 生成.box文件

    例如:tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox

    然后矫正你的字符:


    矫正完毕后切记!!!要保存!!点那个save按钮!!!

    [00]生成.tr文件

    格式:tesseract [fileName.tif] [fileName] nobatch box.train
    例如:tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train

    注意:第一个是要执行的文件eng.jxbocr.exp1.tif第二个是要生成的.tr文件名称,必须和要执行的文件名称保持一致,但是后缀不加,比如上面我的第二个参数eng.jxbocr.exp1

    [01]生成unicharset文件

    格式:unicharset_extractor [文件名].box
    例如:unicharset_extractor eng.jxbocr.exp1.box

    [02]新建font_properties.txt文件

    写入:jxbocr 0 0 0 0 0
    表示:使用默认的字体,然后保存这个文本呢
    注意:jxbocr是你上面文件名eng.jxbocr.exp1.tif的第二个字段

    [03]生成shapetable文件

    格式:shapeclustering -F font_properties.txt -U unicharset [文件名].tr
    例如:shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr

    [04]生成pffmtableinttemp文件

    格式:mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
    例如:mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr

    [05]生成normproto文件

    格式:cntraining [文件名].tr
    例如:cntraining eng.jxbocr.exp1.tr

    [05]加上统一的前缀

    前缀就是你的文件eng.jxbocr.exp1第二个字段jxbocr.,然后就是这个样子:

    [06]生成traineddata文件

    格式:combine_tessdata [第二字段]
    例如:combine_tessdata jxbocr.

    OK,训练完成!把你的语言包放到Tesseract-OCR/tessdata目录下,然后你可以测试识别一下,嘿嘿。

    相关文章

      网友评论

          本文标题:Tess4J字库训练

          本文链接:https://www.haomeiwen.com/subject/zrtdultx.html