美文网首页
Google开源OCR识别Tesseract介绍

Google开源OCR识别Tesseract介绍

作者: Alan008 | 来源:发表于2020-07-14 10:07 被阅读0次

    OCR是什么

    OCR,即 Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。通常技术中广泛流传的 OCR 指的就是“将图片转成文字”的智能技术。

    Tesseract介绍

    Tesseract是谷歌开发并开源的图像文字识别引擎,使用python开发。

    Tesseract的安装

    可以使用预编译(Pre-built)的二进制版本或者从源代码安装,在Ubuntu系统下运行

    sudo add-apt-repository ppa:alex-p/tesseract-ocr

    sudo apt-get update

    sudo apt-get install tesseract-ocr

    sudo apt-get install libtesseract-dev

    sudo apt-get install tesseract-ocr-chi-sim

    验证Tesseract是否正确安装,可以使用命令行来进行验证是否安装成功。

    $ tesseract --version

    Tesseract的使用

    识别的基本用法是“imagename outputbase [options…]”,4.1的版本options只能通过“-l”选择语言。

    比如对test.png进行OCR,然后把识别结果保存在test.txt里

    tesseract test.png test -l chi_sim

    更多的使用命令和方法,可以参照官方教程。

    授权和地址

    目前系统使用的是 pache License 2.0 开源协议,

    官网介绍:访问 github 搜索 tesseract-ocr/tesseract

    相关文章

      网友评论

          本文标题:Google开源OCR识别Tesseract介绍

          本文链接:https://www.haomeiwen.com/subject/kdlxhktx.html