美文网首页Python小哥哥
python通过pytesseract使用tesseract-o

python通过pytesseract使用tesseract-o

作者: 我爱学python | 来源:发表于2019-03-28 16:52 被阅读1次

    Python-tesseract是python的光学字符识别(OCR)工具。也就是说,它将识别并读取嵌入图像中的文本。

    Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用,因为它可以读取Python Imaging Library支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等,而tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。

    一、用法

    快速开始

    支持OpenCV image/NumPy数组对象

    如果tessdata出现类似Error opening data file...的报错,请添加以下配置:

    1、功能

    get_tesseract_version: 返回系统中安装的Tesseract版本。

    image_to_string: 将图像上的Tesseract OCR运行结果返回到字符串

    image_to_boxes: 返回包含已识别字符及其框边界的结果,需要Tesseract 3.05+。有关更多信息,请查看Tesseract TSV文档

    image_to_osd: 返回包含有关方向和脚本检测的信息的结果。

    2、参数

    image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

    image Object,由Tesseract处理的图像的PIL Image/NumPy数组

    lang String,Tesseract语言代码字符串

    config String,任何其他配置字符串,例如:config='--psm 6'

    nice Integer,修改Tesseract运行的处理器优先级。Windows不支持。Nice调整了unix-like流程的优点。

    output_type 类属性,指定输出的类型,默认为string。有关所有支持类型的完整列表,请检查pytesseract.Output类的定义。

    二、安装

    先决条件:

    Python-tesseract需要python 2.7+或python 3.x.

    您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian/Ubuntu下,是python-imaging或python3-imaging。

    安装Google Tesseract OCR(有关如何在Linux,Mac OSX和Windows上安装引擎的其他信息)。你必须能够调用Tesseract命令为tesseract。如果不是这种情况,例如因为tesseract不在您的PATH中,则必须更改tesseract_cmd变量pytesseract.pytesseract.tesseract_cmd。在Debian/Ubuntu下,您可以使用包tesseract-ocr。对于Mac OS用户。请通过homebrew安装tesseract。

    通过pip安装:

    有关更多信息,请查看pytesseract页面

    $ (env)> pip install pytesseract

    或者如果你安装了git:

    $ (env)> pip install -Ugit+https://github.com/madmaze/pytesseract.git

    从源代码安装:


    其它教程

    如何加载中文数据集以及识别中文,首先前往github下载最新数据集tessdata为识别字体数据集。然后寻找到我们电脑中数据集地址:

    将下载的中文数据集放在文件下直接使用即可

    当然也可以自定义数据集位置:

    相关文章

      网友评论

        本文标题:python通过pytesseract使用tesseract-o

        本文链接:https://www.haomeiwen.com/subject/okkcbqtx.html