美文网首页
Python第三方模块tesserocr安装

Python第三方模块tesserocr安装

作者: 朝畫夕拾 | 来源:发表于2020-06-02 16:44 被阅读0次

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。

tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract 。

例如:对于下图的验证码,我们可以通过 OCR 技术将其转换成电子文本,然后爬虫将识别的结果提交给服务器,便可以达到自动识别验证码的过程。

相关链接

tesserocr GitHub: https://github.com/sirfz/tesserocr

tesserocr PyPI: https://pypi.python.org/pypi/tesserocr

tesseract 下载地址: http://digi.bib.uni-mannheim.de/tesseract

tesseract GitHub: https://github.com/tesseract-ocr/tesseract

tesseract 语言包: http://github.com/tesseract-ocr/tessdata

tesseract 文档: https://github.com/tesseract-ocr/tesseract/wiki/Documentation

Windows下的安装

在 Windows 下,首先需要下载 tesseract,它为 tesserocr 提供了支持。

进入下载页面,可以看到有各种 .exe 文件的下载列表,这里可以选择下载 3.0 版本 。 如下图所示为 3.05 版本 。

其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本, 例如可以选择下载 tesseract-ocr-setup-3 .05.01.exe。

下载完成后双击运行,安装程序。需要注意的是,需要句选 Additional language data(download)选项来安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言 。

给tesseract配置环境变量:

(1)将tesseract安装路径添加到path环境变量中

(2)将tesseract的语言包添加到环境变量中,在环境变量中新建一个系统变量,变量名称为TESSDATA_PREFIX,tessdata是放置语言包的文件夹,一般在你安装tesseract的目录下,即tesseract的安装目录就是tessdata的父目录,把TESSDATA_PREFIX的值设置为它即可

接下来 , 再安装 tesserocr 即可:

pip  install  tesserocr  pillow

如果通过 pip 安装失败,可以尝试 Anaconda 下的 conda 来安装:

conda  install  -c  simonflueckiger  tesserocr  pillow

验证安装

测试样例:

图片下载:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

 (1)用 tesseract 命令测试:

tesseract image.png result  -l  eng

 运行结果如下:

Tesseract Open Source OCR Engine v3.05.01 with Leptonica

(2)利用 Python 代码测试:

import  tesserocr

from  PIL  import  Image

image = Image.open('image.png')

result = tesserocr.image_to_text(image)print(result)

运行结果如下:

Python  WebSpider

另外,还可以直接调用 tesserocr 模块的 file_to_text() 方法,可以达到同样的效果:

import tesserocr 

print(tesserocr.file_to_text('image.png'))

运行结果如下:

Python  WebSpider

如果成功输出结果,则证明 tesseract 和 tesserocr 都已经安装成功。

相关文章

  • 2018-07-09Python 3.6 模块安装“error:

    今天在Python 3.6环境中,需要安装tesserocr模块,在安装的过程中遇到了“error: Micros...

  • Python第三方模块tesserocr安装

    在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 t...

  • Python ☞ day 7

    Python学习笔记之 date & datetime & 模块 & 包 & 第三方模块安装 时间 UTC(世界协...

  • 模块

    模块的三种类型: 内置模块:安装python解释器的时候一起装上的 第三方模块:扩展模块:需要自己安装 自定义模块...

  • Python利用OCR和PIL库识别图形验证码(细数那些坑)

    Python识别图形验证码主要用到OCR的tesserocr第三方库,这个库是对tesseract库的Python...

  • Python接口自动化之mock模块简单使用

    mock简介 mock原是python的第三方库,python 2可以直接安装mock模块,但在pytho...

  • python操作hdfs

    hdfs模块时python的一个第三方库,可以允许直接对hadoop的hdfs模块进行访问. 安装 安装hadoo...

  • Python连接数据库

    一、python连接oracle数据库 安装模块 使用第三方模块 cx_Oracle pip install cx...

  • python 模块安装

      python模块的安装可以通过,下载源码手动安装,也可以通过第三方工具自动化安装。使用第三方工具,如pip,进...

  • python 连接redis集群

    python连接redis集群需要用到第三方模块rediscluster安装rediscluster : pip ...

网友评论

      本文标题:Python第三方模块tesserocr安装

      本文链接:https://www.haomeiwen.com/subject/hczuzhtx.html