美文网首页分布式爬虫框架
python-OCR图片识别库--pytesseract

python-OCR图片识别库--pytesseract

作者: 光小月 | 来源:发表于2019-06-02 09:51 被阅读24次

    安装

    通过安装pytesseract之后,,编写代码

    import pytesseract
    val = pytesseract.image_to_string(Image.open(imagePath))
    print(val)
    

    提示:
    pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

    原因: pytesseract 安装之前需要安装tesseract包,

    查找解决方案: python3光学字符识别模块tesserocr与pytesseract

    tesserocr安装参考链接:https://github.com/sirfz/tesserocr

    pytesseract安装参考链接:https://github.com/madmaze/pytesseract

    tesseract安装参考链接:https://github.com/tesseract-ocr/tesseract/wiki

    问题

    1. 使用tesseract进行识别图片时,出现问题
    Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
    

    首先要确保:
    1、安装Pillow,命令pip install Pillow,安装完毕会在Python文件夹下Lib\site-packages\pytesseract这个文件夹,里面有pytesseract.py文件
    2、确保安装了 Tesseract-OCR 这个好像没有64、32的区别
    本人Python用的32位,安装这个OCR时候,看到用的是32位版本的最后没问题,安装后,自动生成环境变量,查看自己环境变量里是否有tesseract的路径
    3、检查环境变量path 与TESSDATA_PREFIX , path 中含有tesseract的安装目录, TESSDATA_PREFIX 是tesseract的安装目录的tessdata, 然后查看其信息
    然后找一个图片测试,cmd中输入tesseract,会出现提示
    命令tesseract d:/pic.gif result 查看result的内容

    1. 使用pytesseract 进行图片识别
      出现以下问题, 找到tesseract这个环境变量设置地
      解决方法:
      找到pytesseract.py文件,将其中的“tesseract_cmd”字段指定为tesseract.exe的完整路径即可, 比如tesseract_cmd=r'c:\Tesseract-OCR\tesseract.exe'

    PS: 若你觉得可以、还行、过得去、甚至不太差的话,可以“关注或点赞”一下,就此谢过!

    相关文章

      网友评论

        本文标题:python-OCR图片识别库--pytesseract

        本文链接:https://www.haomeiwen.com/subject/jrutxctx.html