美文网首页
[py051] Python+Tesseract文字识别

[py051] Python+Tesseract文字识别

作者: Andy计算机专业 | 来源:发表于2020-02-16 15:33 被阅读0次
    Sunday, February 16, 2020 ---Andy
    前言:文字识别是所有文字类识别的基础,比如身份证,火车票,证件等自动识别...。所以它在文字类识别尤为重要,故今天咱们来看下py+tsrt如何识别文字。
    闲话:Tesseract主要特点-->开源、免费、识别无需联网、可训练自己的字库。

    一、Tesseract在Windows的下载、安装及配置

    1-1 下载

    1-1-1 安装包https://digi.bib.uni-mannheim.de/tesseract/
    1-1-2 语言包https://github.com/tesseract-ocr/tessdata (默认是支持英文的,中文识别需下载语言包:chi_tra.traineddata、chi_sim.traineddata)

    1-2 安装及配置

    1-2-1 安装Tesseract:双击安装包,选择安装位置,一直下一步就可以。
    1-2-2 安装python的pytesseract库pip install pytesseract
    1-2-3 配置:

    配置1(添加语言包环境变量) 配置2(修改pytesseract库调用Tesseract.exe位置) 配置3(添加中文语言包)

    二、识别测试代码

    from PIL import Image
    import pytesseract
    
    # 英文识别测试
    img_en = Image.open('OCR_test_en.png')
    ocr_result_en = pytesseract.image_to_string(img_en)
    print(ocr_result_en)
    
    # 中文识别测试
    img_zh = Image.open('OCR_test_zh.png')
    ocr_result_zh = pytesseract.image_to_string(img_zh, lang='chi_sim')
    print(ocr_result_zh)
    

    三、效果

    1.英文识别效果 2.中文识别效果

      总结:英文效果不错,中文还行。另外,识别效果依赖于图片质量,所以拍摄高质量的图片及图片前期处理(对齐、去噪等)很重要。

    最后

    [1].代码截止2020-02-16调试无误。
    [2].如需全部代码及相关文件,留言邮箱。
    [3].过程中有任何问题,欢迎交流!Q597966823

      让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!

    相关文章

      网友评论

          本文标题:[py051] Python+Tesseract文字识别

          本文链接:https://www.haomeiwen.com/subject/cxwpfhtx.html