美文网首页
Windows 和 Liunx下安装tesserocr详解

Windows 和 Liunx下安装tesserocr详解

作者: 忘了呼吸的那只猫 | 来源:发表于2020-09-04 13:14 被阅读0次

    OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符串确实是由字符稍加扭曲变换得到的内容。

    tesserocrpython的一个OCR识别库,但其实是对tesserocr做的一层Python API的封装,所以它的核心是tesseract.因此,在安装tesserocr之前,我们需要先安装tesseract

    这个库windowsLinux安装不同,后面分为两部分来写

    window安装

    1. tesseract安装

    下载想要的版本:https://digi.bib.uni-mannheim.de/tesseract/
    文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。
    下载好的程序如下,双击安装。一直next就行。

    这里不用管直接下一步。


    • 注意:红线的地方是选择安装OCR识别支持的语言包,全选的话有1.3GB的大小,影响下载速度,正常的学习测试的话,建议不要全选,选择自己需要的语言包安装即可。例如: chinese,中文简体和繁体,以及数学运算。除非是上线的项目必须全选。

    2.安装tesserocr库

    安装好tesseract以后,安装tesserocr,直接在线安装 pip3 install tesserocr会报错:


    所以建议使用离线安装,先下载'whl'文件
    https://github.com/simonflueckiger/tesserocr-windows_build/releases

    选择喜欢的版本下载
    下载好之后,在下载目录打开 cmd控制台输入:
    pip3 install 下载的文件名.whl。

    最后一步

    打开tesseract.exe(第一步安装的程序)的安装目录,找到tessdata目录


    复制一份放入你的python执行环境的根目录中去,

    windows上的安装步骤就完成了,可以去测试一下是否能用

    二、tesserocr linux安装

    1.linux也需要先安装 tesseract-ocr

    sudo apt-get install tesseract-ocr
    

    2.安装依赖库

    sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev  libfreetype6-dev liblcms2-dev libwebp-dev libharfbuzz-dev libfribidi-dev  tcl8.6-dev tk8.6-dev python-tk
    

    3.tesserocr库安装

    安装开发环境
    apt install libtesseract-dev libleptonica-dev
    
    安装库
    pip3 install tesserocr
    

    相关文章

      网友评论

          本文标题:Windows 和 Liunx下安装tesserocr详解

          本文链接:https://www.haomeiwen.com/subject/jcbhsktx.html