美文网首页工作生活
tesseract4.0引擎语言包的配置!

tesseract4.0引擎语言包的配置!

作者: 行走的小明 | 来源:发表于2019-07-01 08:51 被阅读0次

    http://baijiahao.baidu.com/s?id=1603080386704917711&wfr=spider&for=pc

    在“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中已为大家介绍了如何安装python进行图文识别的引擎,接下来我们来配置语言包,为大家分享tesseract4.0引擎语言包的配置!

    tesseract4.0引擎语言包的配置

    Step1.我们从github上下载我们需要的中文简体语言包。(大家可根据自己的需要下载,一般中文简体就够我们使用了)

    语言包下载网址:https://github.com/tesseract-ocr/tessdata

    Step2.将下载好的语言包放入tesseract4.0安装目录(D:\Program Files (x86)\Tesseract-OCR)的“tessdata"文件夹下。

    此时的“tessdata"文件夹下不仅有原来自带的英文识别语言包,而且具有了我们放入的中文简体识别语言包。

    Step3.检测系统是否已经识别语言包

    我们在系统命令模式CMD中,使用命令”tesseract --list-langs“来检测此时tesseract4.0所支持识别的语言。

    但我们却发现,此时系统提示tesseract不能加载任何语言包!在上图用红框标记的系统提示中,我们可以分析,这是由于我们没有配置”TESSDATA_PREFIX“系统变量。

    Step4.配置”TESSDATA_PREFIX“系统变量

    配置方法和“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中为大家分享的环境变量配置方法大体一样。

    (1)新建系统变量,名字为”TESSDATA_PREFIX“。

    (2)设置变量值,将“TESSDATA_PREFIX”的值设为我们的安装路径”D:\Program Files (x86)\Tesseract-OCR“

    注意:此时系统变量的值指的是文件夹路径,所以此时一定不要加分号“;”,否则系统将无法识别。这点有区别与一般的环境变量配置。

    配置好系统变量“TESSDATA_PREFIX”,我们关闭cmd后再次打开,使系统变量生效。

    Step4.再次检测系统是否已经识别语言包

    我们再次使用命令”tesseract --list-langs“来检测,发现此时tesseract4.0支持识别的语言已有3种。

    其中chi_sim表示我们下载的中文简体,eng表示英文。其它种类的语言包,大家可根据自己需要,自行下载即可。

    至此,tesseract4.0引擎语言包的配置流程已圆满介绍完毕!具体的使用实例将在“小叮当Python人工智能篇:一句代码搞定图文识别!”中为大家分享!

    相关文章

      网友评论

        本文标题:tesseract4.0引擎语言包的配置!

        本文链接:https://www.haomeiwen.com/subject/ioewcctx.html