Tesseract OCR LSTM文本训练

作者: SyKay | 来源:发表于2021-01-26 18:34 被阅读0次

官方链接：

官方训练教程：https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
语言包地址：https://github.com/tesseract-ocr/tessdata_best

4.0 LSTM的训练流程和3.0版本有点像，如下：

准备培训文字（txt）。
将文本转换为图像和box文件。
制作unicharset文件。
根据unicharset和可选的词典数据制作入门级训练数据。
运行tesseract以处理图像和 box文件以创建训练数据集。
对训练数据集进行训练。
合并数据文件。

其区别在于：
1、 3.0版本训练图像文字，需要知道每个要训练的字在其图像中的具体坐标，而4.0版本训练仅需要知道这个字所在行的坐标即可（即不需要逐个字去调试坐标）。
2、3.0版本训练过程中的 .tr文件在4.0版本的训练过程中被替换为.lstmf数据文件。（其他训练教程里面如果出现了.tr文件，那就可以肯定他的教程是3.0版本）
3、字体可以并且应该自由混合而不是分开。（这段话我看不懂）
4、 3.0版本的聚类步骤（mftraining，cntraining，shapeclustering）在4.0中被替换为一个缓慢的lstmtraining步骤。（即3.0的多个合并步骤在4.0这里只需要一个步骤完成）
5、 4.0的训练需要一气呵成，如果训练中断，重启后很难自动结束。
6、 4.0使用的语言模型、unicharset和3.0版本所使用的语言模型和unicharset不一样（所以不要拿3.0的数据来4.0里面训练）。

训练前准备

写了半天：发现知乎已经有篇现成的了，大家可以参考
https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true

网友评论

本文标题：Tesseract OCR LSTM文本训练

本文链接：https://www.haomeiwen.com/subject/jwpazktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Tesseract OCR LSTM文本训练

官方链接：

训练前准备

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读