简介
Tesseract 已经有 30 年历史,开始它是惠普实验室的一款专利软件,然后在 2005 年开源,自 2006 年后由 Google 赞助进行后续的开发和维护。
OCR 即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。他是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在现在的免费 OCR 引擎中,其识别精度也仍然是出类拔萃的。因为其免费与较好的效果,许多的个人开发者以及一些较小的团队在使用着 Tesseract ,诸如验证码识别、车牌号识别等应用中,不难见到 Tesseract 的身影。
安装
本文主要介绍windows安装
1.下载地址
https://digi.bib.uni-mannheim.de/tesseract/
注意尽量不要下载带dev,alpha,beta等版本,这些版本不稳定,也可能是测试版本
-
安装
下载完成后双击,点击下一步,会出现选择安装项的页面。
image.png
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击下一步按钮即可。
- 设置环境变量
安装完成后在“控制面板-系统-高级系统设置-环境变量”里配置环境变量
将安装地址“E:\soft\Tesseract-OCR”添加到系统变量path后面
打开命令终端,
输入:tesseract -v
,可以看到版本信息
tesseract v5.0.0.20190623
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found SSE
输入:tesseract --list-langs
,可以看到安装的语言信息
List of available languages (8):
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
eng
enm
equ
osd
如果输入tesseract --list-langs
报错,查看下是否设置TESSDATA_PREFIX变量,值为E:\soft\Tesseract-OCR\tessdata
使用
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename 图片地址
outputbase 输出的文件名,默认txt文件,如果为stdout则直接输出到界面
-l lang 使用的语言
-psm pagesegmode 模式
configfile 配置文件(可以把固定的配置保存到文件中,在此处输入文件名即可)
如:
tesseract e://img/12.jpg 12 -l chi_sim
tesseract e://123.jpg stdout -l chi_sim
网友评论