美文网首页鲸鱼技术
Python:pytesseract, faker库

Python:pytesseract, faker库

作者: 喷雾式鲸鱼 | 来源:发表于2019-08-04 18:55 被阅读0次

    2019.8.4

    OS: Windows8.1专业版

    1. 安装tesserocr, pytesseract库
      • Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。
      • pytesseract是对tesseract做的一层Python API封装,是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。
      • tesseract OCR由C/C++编写,github地址
      • pip install tesserocr报错,通过tesserocr whl文件下载whl文件安装,cd到下载目录pip install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl,这个版本支持tesseract v4.0.0。也可以尝试用conda安装。
      • 通过https://digi.bib.uni-mannheim.de/tesseract/,这里可以下载到旧版本。下载tesseract-ocr-w64-setup-v4.0.0.20181030.exe安装。
      • 将tessertocr目录和子目录tessdata添加进环境变量。命令行输入tesserart显示信息。
      • tesserocr库识别准确率不高,改用pip install pytesseract安装pytesseract,uni-mannheim下载tesseract-ocr-w64-setup-v5.0.0.20190623.exe安装。方便,准确率高,支持最新版本的tesseract-ocr。
      • tesserocr不好用,pytesseract更好。
    2. python faker库
      • 安装pip install faker,调用
      from faker import Faker
      f = Faker(locale='zh')  # 输入zh与zh_CN等效,zh_TW为台湾地区
      f.name()  # 随机姓名
      f.address()  # 随机省市路座邮编搭配
      

    相关文章

      网友评论

        本文标题:Python:pytesseract, faker库

        本文链接:https://www.haomeiwen.com/subject/mlkydctx.html