美文网首页
Tesserocr框架配置问题记录

Tesserocr框架配置问题记录

作者: ac_Jiaxu | 来源:发表于2018-11-25 22:16 被阅读0次

    今天学习Tesserocr框架,遇到了各种问题,现在记录下来作为备忘。

    1. 安装过程(windows10 64位)
      Windows的话先要去下载tesseract。网址如下:
    https://digi.bib.uni-mannheim.de/tesseract/
    

    点击这里
    最后安装过程要勾选一下那个语言包。如果缺少中文包需要到github上面下载对应的语言包对应的网址如下:

    https://github.com/tesseract-ocr/tessdata/find/master
    

    点击这里

    1. 问题记录
      2.1. 直接pip3 install tesserocr pillow失败
      解决办法:
      下载对应的whl文件包
    https://github.com/simonflueckiger/tesserocr-windows_build/releases
    

    点击这里
    将这个whl文件包剪切到对应的python 安装目录之下,之后执行pip3 install 对应版本.whl文件即可。比如我的就是:

    pip3 install tesserocr-2.3.1-cp37-cp37m-win_amd64.whl
    

    出现界面如下:


    运行结果

    之后按照图片识别代码敲进去
    出现如下错误:


    TIM截图20181125220007.png
    缺失相应的模块 解决办法:
    pip3 install tesserocr pillow
    

    最后就快要识别图片呀:出现路径的问题:


    TIM截图20181125220421.png

    解决办法:
    将图片放到python安装目录下,并采用绝对路径的方式。并且将tessdata文件夹复制一份到python目录下。
    代码如下:
    test2和test3图片如下:


    test2.png
    test3.png
    >>> from PIL import Image
    >>> import tesserocr
    >>> image=Image.open("D://Python/test2.png")
    >>> print(tesserocr.file_to_text("D://Python/test2.png"))
    1234567
    
    
    >>> from PIL import Image
    >>> import tesserocr
    >>> image=Image.open("D://Python/test3.png")
    >>> print(tesserocr.file_to_text("D://Python/test3.png"))
    xuhacker
    

    ok!普通英文数字测试成功。
    但是这时候测试中文出现乱码:
    解决办法:

    https://www.cnblogs.com/nyist-xsk/p/7762476.html
    

    目前我测试中文图片仍然有问题。以后更新。
    参考链接:

    https://blog.csdn.net/coolcooljob/article/details/80385711
    https://blog.csdn.net/wanghui2008123/article/details/37694307
    https://blog.csdn.net/T1243_3/article/details/81211029?utm_source=blogxgwz3
    https://www.cnblogs.com/nyist-xsk/p/7762476.html
    

    相关文章

      网友评论

          本文标题:Tesserocr框架配置问题记录

          本文链接:https://www.haomeiwen.com/subject/ovumqqtx.html