Mac安装tesseract和python使用pytesseract、pillow包提取图片中中文
一、安装tesseract
brew install tesseract
二、查看tesseract版本
成功安装后查看tesseract版本
tesseract --version
输出:
tesseract 5.3.0
leptonica-1.82.0
libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 2.1.3) : libpng 1.6.39 : libtiff 4.4.0 : zlib 1.2.11 : libwebp 1.3.0 : libopenjp2 2.5.0
Found NEON
Found libcurl/7.79.1 SecureTransport (LibreSSL/3.3.6) zlib/1.2.11 nghttp2/1.45.1
三、下载中文包
tesseract默认不支持中文,需要单独下载中文包
中文包下载地址: https://tesseract-ocr.github.io/tessdoc/Data-Files
存放位置是: /usr/local/share/tessdata/
不确定语言包位置, 可以输入 tesseract --list-langs
查看, 输出内容中有语言包的目录位置, 参考第四步.
四、查看全部语言库
tesseract --list-langs # 查看支持语言
输出:
List of available languages in "/opt/homebrew/share/tessdata/" (4):
chi_sim
eng
osd
snum
五、python 安装pytesseract和pillow
pip install pytesseract
pip install pillow
六、识别图片中文字体
import pytesseract
from PIL import Image
# 读取图片
im = Image.open('/Users/sws/Desktop/a.png')
# 识别文字,并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print(string)
文献参考: https://blog.csdn.net/zhengzaifeidelushang/article/details/126639801
网友评论