美文网首页
Tesseract OCR LSTM文本训练

Tesseract OCR LSTM文本训练

作者: SyKay | 来源:发表于2021-01-26 18:34 被阅读0次

    官方链接:

    官方训练教程https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
    语言包地址https://github.com/tesseract-ocr/tessdata_best

    4.0 LSTM的训练流程和3.0版本有点像,如下:

    1. 准备培训文字(txt)。
    2. 将文本转换为 图像和box文件。
    3. 制作unicharset文件。
    4. 根据unicharset和可选的词典数据制作入门级训练数据。
    5. 运行tesseract以处理图像和 box文件以创建训练数据集。
    6. 对训练数据集进行训练。
    7. 合并数据文件。

    其区别在于:
    1、 3.0版本训练图像文字,需要知道每个要训练的字在其图像中的具体坐标,而4.0版本训练仅需要知道这个字所在行的坐标即可(即不需要逐个字去调试坐标)。
    2、3.0版本训练过程中的 .tr文件在4.0版本的训练过程中被替换为.lstmf数据文件。(其他训练教程里面如果出现了.tr文件,那就可以肯定他的教程是3.0版本)
    3、 字体可以并且应该自由混合而不是分开。(这段话我看不懂)
    4、 3.0版本的聚类步骤(mftraining,cntraining,shapeclustering)在4.0中被替换为一个缓慢的lstmtraining步骤。(即3.0的多个合并步骤在4.0这里只需要一个步骤完成)
    5、 4.0的训练需要一气呵成,如果训练中断,重启后很难自动结束。
    6、 4.0使用的语言模型、unicharset和3.0版本所使用的语言模型和unicharset不一样(所以不要拿3.0的数据来4.0里面训练)。

    训练前准备

    写了半天:发现知乎已经有篇现成的了,大家可以参考
    https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true

    相关文章

      网友评论

          本文标题:Tesseract OCR LSTM文本训练

          本文链接:https://www.haomeiwen.com/subject/jwpazktx.html