Tesseract是一个流行的OCR(Optical Character Recognition,光学字符识别)库,通俗来说就是文本识别。Tesseract最初由HP(就是惠普啦)在1985年开始研发,后面貌似就没啥太重大的进展了;直到2005年HP将Tesseract开源,2006年开始交给Google维护。
Tesseract在进入3.0版本后各方面功能都有了长足的发展,尤其是3.02.02版本开始提供C-API,使得通过动态链接库与其他编程语言混合开发成为了可能。
安装Tesseract
首先安装Tesseract,参考官方wiki。Linux下直接通过包管理器安装(如apt-get install tesseract);Windows下3.02之后版本不提供安装包,但有一个3.05版的非官方安装包,点击直接下载,安装记得配置环境变量,C:\Program Files (x86)\Tesseract-OCR,这个是默认安装地址,环境变量里添加这个即可。
安装完成后在shell中输入
Bash
tesseract -v
即可看到版本信息
image.png参考地址:
https://www.polarxiong.com/archives/python-pytesser-tesseract.html
tesseract下载地址:https://github.com/UB-Mannheim/tesseract/wiki
网友评论