一、前期准备
更新当前系统版本
yum updata -y
安装yum包管理工具,大部分系统未安装
yum install yum-utils -y
二、安装tesseract
导入公钥
rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
增加yum源
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
安装tessceract
yum install tesseract -y
安装语言包
yum install tesseract-langpack-deu -y
安装中文语言包
yum install tesseract-langpack-chi-sim tesseract-langpack-chi-sim-vert -y
如果需要其他语言包,安装包的格式为tesseract-langpack-xxx
三、测试一下结果
查看当前的版本状态
tesseract -v
tesseract --version
结果如下
tesseract 4.1.3
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
查看支持的语言
tesseract --list-langs
结果带有chi_sim chi_sim_vert 表示安装成功
List of available languages (5):
chi_sim
chi_sim_vert
deu
eng
osd
————————————————
原文链接:https://blog.csdn.net/mu_yi_/article/details/127359340
尝试ocr识别
from flask import Flask, jsonify, request
import pytesseract
from PIL import Image
app = Flask(__name__)
@app.route('/ocr', methods=['POST'])
def ocr():
# 接收 POST 请求的图片文件,保存到本地
file = request.files['file']
img = Image.open(file)
img.save('temp.png')
# 使用 pytesseract 进行 OCR 识别
text = pytesseract.image_to_string(img, lang='chi_sim',config='--psm 6')
# 输出识别结果
response = {'text': text}
return jsonify(response)
if __name__ == '__main__':
app.run(debug=True)
网友评论