Tesseract 训练识别字符的思路

Tesseract 训练识别字符的思路

作者: 丁鸿辉 | 来源:发表于2018-07-18 09:40 被阅读0次

1.利用Tesseract进行图像识别OCR
Tesseract OCR（光学字符识别）
Tesseract 训练识别字符的思路
Tess4.0中英文正体斜体混合训练
机器学习破解验证码
利用 tesseract 解析简单数字验证码图片
光学字符识别引擎tesseract-ocr入门教程—Mac标注+
使用Tesseract识别图片中的股票代码
关于Tesseract
python通过pytesseract使用tesseract-o

Tesseract 是一个很流行的 OCR 软件，能够用来较好的识别印刷字体。
在默认情况下，通过该软件识别字符，其准确率不是很高，就需要额外做些优化。
优化思路如下：

限定要识别的字符范围，方法是通过参数：tessedit_char_whitelist，类似的还有黑名单
优化识别单个字符的准确率

其中中对于第二点，从工作原理上，OCR 获取到的是图片。其操作步骤为：

通过二值化和去噪点使得图片的内容更加突出，为下一步定位字符做预备
从图片中定位出文字，理想情况下能够定位到单个字符
获取定位到的字符，将其特征和特征数据进行对比，从而判断是什么字符

这里的对比关键有两个。

判断是什么语言，譬如是中文还是日文还是英文，这包括有哪些字符，有哪些单词（词语），这个会限定和优化匹配结果。
判断字形对应的字符。如我们所知道的那样，对指定的字而言，不同的字体其表现出来的样子是非常不一样的。OCR的任务就是将定位到的字符字形特征和其自己已知的特征进行比较，从而判断出来该字符是什么。以我的了解，OCR本身在识别的时候是无法指定要识别的字体，而且其所有的字体的特征都放在同一个文件里面。如果要识别的字体特征不在 OCR 本身的特征列表里面，那么识别的准确率肯定就堪忧了。

对于上述中增加一种字体的支持，可以参考官方文档。这里简述其步骤。

获取或者生成包括这种字体的图片，转化成 tif 格式（注意，最好每个字符出现频率不少于10次）
通过 tesseract 的 makebox 命令定位和识别字符，生成 box 文件（注意：可以限定要识别的字符清单以提高准确性和效率）
box 文件里包括了识别出来的字符以及其在图片中的位置
通过 jTessBoxEditor 等工具矫正识别出来的字符，也可以手动编辑 box 文件来修复
更具 box 文件和 tif 文件进行特征提取和训练
生成训练数据

参考链接：
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#generate-training-images-and-box-files
https://michaeljaylissner.com/posts/2012/02/11/adding-new-fonts-to-tesseract-3-ocr-engine/

相关文章

1.利用Tesseract进行图像识别OCR
简介 1.Tesseract是开源的字符识别工具，中文叫做光学字符识别（OCR），目前有goole负责其维护训练。...
Tesseract OCR（光学字符识别）
Tesseract OCR（光学字符识别）教程iOS图像文字识别IOS 文字图片识别 Tesseract OCR（...
Tesseract 训练识别字符的思路
Tesseract 是一个很流行的 OCR 软件，能够用来较好的识别印刷字体。在默认情况下，通过该软件识别字符，其...
Tess4.0中英文正体斜体混合训练
Tesseract中英文正体斜体混合训练当我们识别数据中包含中文正体，英文斜体字符时，Tess4.0识别英文斜体...
机器学习破解验证码
安装 tesseract 库利用tesseract 训练数据。最终识别验证码。先识别简单的验证码数据包用ch...
利用 tesseract 解析简单数字验证码图片
tesseract 是一个 OCR（Optical Character Recognition，光学字符识别）引擎...
光学字符识别引擎tesseract-ocr入门教程—Mac标注+
概念 Tesseract是一个光学字符识别引擎，支持多种操作系统。Tesseract是基于Apache许可证的自由...
使用Tesseract识别图片中的股票代码
概述 Tesseract是一个OCR（Optical Character Recognition，光学字符识别）引...
关于Tesseract
Tesseract是一个流行的OCR（Optical Character Recognition，光学字符识别）库...
python通过pytesseract使用tesseract-o
Python-tesseract是python的光学字符识别（OCR）工具。也就是说，它将识别并读取嵌入图像中的文...

网友评论

本文标题：Tesseract 训练识别字符的思路

本文链接：https://www.haomeiwen.com/subject/fxsgpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Tesseract 训练识别字符的思路|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！