美文网首页
在ubuntu16.04上安装tesseract4.0

在ubuntu16.04上安装tesseract4.0

作者: 这是一个假的程序员 | 来源:发表于2017-12-14 10:58 被阅读0次

    1.安装依赖的库

    sudo apt-get install g++ # or clang++ (presumably)

    sudo apt-get install autoconf automake libtool

    sudo apt-get install autoconf-archive

    sudo apt-get install pkg-config

    sudo apt-get install libpng12-dev

    sudo apt-get install libjpeg8-dev

    sudo apt-get install libtiff5-dev

    sudo apt-get install zlib1g-dev

    2.如果需要训练需安装以下库

    sudo apt-get install libicu-dev

    sudo apt-get install libpango1.0-dev

    sudo apt-get install libcairo2-dev

    3.安装leptonica 

    ###不安装会有error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.错误

    cd git

    ##从git上将leptonica项目克隆到本地

    git clone https://github.com/DanBloomberg/leptonica.git   

    cd leptonica

    autoreconf -vi

    ./autobuild

    ./configure

    make

    sudo make install

    4.安装tesseract

    cd git

    git clone https://github.com/tesseract-ocr/tesseract.git

    cd tesseract

    ./autogen.sh

    ./configure --enable-debug

    make

    sudo make install

    安装结束。

    使用 tesseract -v 命令可以查看安装是否完成(显示版本号)

    tesseract官网上有已经训练好的字典,可以下载下来使用。

    地址:https://github.com/tesseract-ocr/tessdata

    添加tessdata文件夹路径到环境变量中:export TESSDATA_PREFIX=/你的路径/tessdata

     例如 export TESSDATA_PREFIX=/usr/local/share/tessdata

    将下载的字典放到tessdata文件夹里

     即放到/usr/local/share/tessdata中去

    使用tesseract  --list-langs 命令可以知道当前已有的字典,在用tesseract识别文字前必须要加载字典

    识别文件的命令:tesseract filename output -l lang

    例如:tesseract chi.font.exp3.tif output -l chi_sim 

    相关文章

      网友评论

          本文标题:在ubuntu16.04上安装tesseract4.0

          本文链接:https://www.haomeiwen.com/subject/wabhwxtx.html