OCR
,即Optical Character Recognition
,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符串确实是由字符稍加扭曲变换得到的内容。
tesserocr 是
python
的一个OCR
识别库,但其实是对tesserocr
做的一层Python API
的封装,所以它的核心是tesseract
.因此,在安装tesserocr
之前,我们需要先安装tesseract
。
这个库windows
和Linux
安装不同,后面分为两部分来写
window安装
1. tesseract安装
下载想要的版本:https://digi.bib.uni-mannheim.de/tesseract/
文件名中带有dev
的为开发版本,不带dev
的为稳定版本,可以选择下载不带dev
的版本。
下载好的程序如下,双击安装。一直next就行。
这里不用管直接下一步。
- 注意:红线的地方是选择安装
OCR
识别支持的语言包,全选的话有1.3GB的大小,影响下载速度,正常的学习测试的话,建议不要全选,选择自己需要的语言包安装即可。例如:chinese
,中文简体和繁体,以及数学运算。除非是上线的项目必须全选。
2.安装tesserocr库
安装好tesseract
以后,安装tesserocr
,直接在线安装 pip3 install tesserocr会报错:
所以建议使用离线安装,先下载'whl'文件
https://github.com/simonflueckiger/tesserocr-windows_build/releases
选择喜欢的版本下载
下载好之后,在下载目录打开 cmd控制台输入:
pip3 install 下载的文件名.whl。
最后一步
打开tesseract.exe
(第一步安装的程序)的安装目录,找到tessdata
目录
复制一份放入你的python执行环境的根目录中去,
windows上的安装步骤就完成了,可以去测试一下是否能用
二、tesserocr linux安装
1.linux
也需要先安装 tesseract-ocr
sudo apt-get install tesseract-ocr
2.安装依赖库
sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev libfreetype6-dev liblcms2-dev libwebp-dev libharfbuzz-dev libfribidi-dev tcl8.6-dev tk8.6-dev python-tk
3.tesserocr库安装
安装开发环境
apt install libtesseract-dev libleptonica-dev
安装库
pip3 install tesserocr
网友评论