Using tesseract with Python(Tesseract OCR with Python)
1、安装OCR库
sudo apt-get install tesseract-ocr
2、命令行测试
tesseract test.png output.txt
3、安装Python库(PIL分支Pillow和ORC的python库)
sudo pip3 install Pillow pytesseract
4、一段超简单的代码(默认识别英文)
from PIL import Image
import pytesseract
im = Image.open("test.png")
text = pytesseract.image_to_string(im)
print(text)
5、中文识别,结果较差
首先要下载tesseract的中文包:chi_sim.traineddata
https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
然后拷贝到tessdata文件夹
sudo mv chi_sim.traineddata /usr/share/tesseract-ocr/4.00/tessdata
再将上面代码改一改
text = pytesseract.image_to_string(image= im, lang="chi_sim")
网友评论