美文网首页
Tesseract-OCR(图像文字识别)

Tesseract-OCR(图像文字识别)

作者: seven1010 | 来源:发表于2018-07-03 13:19 被阅读161次

    Tesseract-OCR入门使用1
    Tesseract-OCR入门使用2
    Tesseract-OCR入门使用3
    Tesseract API Example

    环境:

    安装:

    • 安装tesseract-orc的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文。安装过程和其他软件一样。
    • pip install PIL
    • pip install pytesseract

    配置环境

    1.设置 tesseract-orc路径

    默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

    解决方法:

    • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
    • 方法2:修改pytesseract.py文件,修改方法如下
      tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
    1. 设置训练集的位置

    下载的默认训练集也没有添加到系统路径,会报错pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

    解决方法:
    设置环境变量 TESSDATA_PREFIX
    C:\Program Files (x86)\Tesseract-OCR\tessdata

    实例程序

    from PIL import Image
    import pytesseract
    text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim')   # 识别中文
    print(text)
    

    其他版本

    Ubuntu版本:

    1.tesseract-ocr安装

    • sudo apt-get install tesseract-ocr

    2.pytesseract安装

    • sudo pip install pytesseract

    3.Pillow 安装

    • sudo pip install pillow

    其他linux版本(如centos):
    1.tesseract-ocr安装
    没找到直接命令安装,所以需要手动下载安装包。
    https://github.com/tesseract-ocr/tesseract
    在上述地址中下载最新的tesseract-ocr的安装包,并解压。
    通过以下命令安装:
    (1)cd tesseract-3.04.01

    (2)./autogen.sh

    (3)./configure
    注意,如果出现error: leptonica not found,需要下载安装leptonica
    http://www.leptonica.org/download.html

    (4)make

    (5)make install

    (6)ldconfig

    2.pytesseract安装
    sudo pip install pytesseract

    3.Pillow 安装
    sudo pip install pillow

    相关文章

      网友评论

          本文标题:Tesseract-OCR(图像文字识别)

          本文链接:https://www.haomeiwen.com/subject/ovmiyftx.html