Mac安装tesseract和python使用pytesseract、pillow包提取图片中中文

一、安装tesseract

brew install tesseract

二、查看tesseract版本

成功安装后查看tesseract版本

tesseract --version

输出:
tesseract 5.3.0
 leptonica-1.82.0
  libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 2.1.3) : libpng 1.6.39 : libtiff 4.4.0 : zlib 1.2.11 : libwebp 1.3.0 : libopenjp2 2.5.0
 Found NEON
 Found libcurl/7.79.1 SecureTransport (LibreSSL/3.3.6) zlib/1.2.11 nghttp2/1.45.1

三、下载中文包

tesseract默认不支持中文，需要单独下载中文包
中文包下载地址： https://tesseract-ocr.github.io/tessdoc/Data-Files
存放位置是: /usr/local/share/tessdata/
不确定语言包位置, 可以输入 tesseract --list-langs 查看, 输出内容中有语言包的目录位置, 参考第四步.

四、查看全部语言库

tesseract --list-langs   # 查看支持语言

输出:
List of available languages in "/opt/homebrew/share/tessdata/" (4):
chi_sim
eng
osd
snum

五、python 安装pytesseract和pillow

pip install pytesseract
pip install pillow

六、识别图片中文字体

import pytesseract
from PIL import Image
# 读取图片
im = Image.open('/Users/sws/Desktop/a.png')
# 识别文字，并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print(string)

文献参考: https://blog.csdn.net/zhengzaifeidelushang/article/details/126639801