Python-tesseract是python的光学字符识别(OCR)工具。也就是说,它将识别并读取嵌入图像中的文本。
Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用,因为它可以读取Python Imaging Library支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等,而tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。
一、用法
快速开始
支持OpenCV image/NumPy数组对象
如果tessdata出现类似Error opening data file...的报错,请添加以下配置:
1、功能
get_tesseract_version: 返回系统中安装的Tesseract版本。
image_to_string: 将图像上的Tesseract OCR运行结果返回到字符串
image_to_boxes: 返回包含已识别字符及其框边界的结果,需要Tesseract 3.05+。有关更多信息,请查看Tesseract TSV文档
image_to_osd: 返回包含有关方向和脚本检测的信息的结果。
2、参数
image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)
image Object,由Tesseract处理的图像的PIL Image/NumPy数组
lang String,Tesseract语言代码字符串
config String,任何其他配置字符串,例如:config='--psm 6'
nice Integer,修改Tesseract运行的处理器优先级。Windows不支持。Nice调整了unix-like流程的优点。
output_type 类属性,指定输出的类型,默认为string。有关所有支持类型的完整列表,请检查pytesseract.Output类的定义。
二、安装
先决条件:
Python-tesseract需要python 2.7+或python 3.x.
您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian/Ubuntu下,是python-imaging或python3-imaging。
安装Google Tesseract OCR(有关如何在Linux,Mac OSX和Windows上安装引擎的其他信息)。你必须能够调用Tesseract命令为tesseract。如果不是这种情况,例如因为tesseract不在您的PATH中,则必须更改tesseract_cmd变量pytesseract.pytesseract.tesseract_cmd。在Debian/Ubuntu下,您可以使用包tesseract-ocr。对于Mac OS用户。请通过homebrew安装tesseract。
通过pip安装:
有关更多信息,请查看pytesseract页面。
$ (env)> pip install pytesseract
或者如果你安装了git:
$ (env)> pip install -Ugit+https://github.com/madmaze/pytesseract.git
从源代码安装:
其它教程
如何加载中文数据集以及识别中文,首先前往github下载最新数据集tessdata为识别字体数据集。然后寻找到我们电脑中数据集地址:
将下载的中文数据集放在文件下直接使用即可
当然也可以自定义数据集位置:
网友评论