1.使用tesseract-ocr
最早由HP公司研发的一个开源文字识别项目,项目地址为:https://github.com/tesseract-ocr/tesseract/wiki
①本次在win7_64位系统上安装,可使用以下链接:
主程序:
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20180109.exe
语言包:
https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
若更新,可参照下列图片找到链接:
data:image/s3,"s3://crabby-images/816cd/816cdf70b30816c87086214ab2425a6d4dccbc61" alt=""
②下载完主程序和语言包后,直接点击安装,全程默认下一步即可。安装完成后,将安装地址加入系统路径,默认安装地址为:C:\Program Files (x86)\Tesseract-OCR;
③打开CMD命令,然后输入tesseract -v
,如果显示版本号,则主程序安装完成。
data:image/s3,"s3://crabby-images/e8eb6/e8eb63b70ff5d60137b5516ca363f2c829226a5b" alt=""
④将语言包放在以下文件夹中:
C:\Program Files (x86)\Tesseract-OCR\tessdata
⑤新建系统变量:
变量名是TESSDATA_PREFIX
,变量值是C:\Program Files (x86)\Tesseract-OCR\tessdata;
data:image/s3,"s3://crabby-images/1e080/1e080db6447490c6db274ccaeaf500d8cb06f209" alt=""
变量生效可能需要重启,想快速搞定,可以直接输入SET TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata
⑥设置完成,可以找个范例试试,这里讲需要识别的内容设置为123.jpg,放在C:\Program Files (x86)\Tesseract-OCR
处,并打开cmd命令,输入:
tesseract.exe 123.jpg 1 -l chi_sim
data:image/s3,"s3://crabby-images/40f4b/40f4b16a795afe79338b4c1fd15d589b4fb2bd83" alt=""
若出现上述截图,运行成功,可以看到文件夹下生成了一个1.txt文件,记载着识别效果。
data:image/s3,"s3://crabby-images/2e6a2/2e6a2dea1abd05c4e9b1421829ef4487df82334e" alt=""
data:image/s3,"s3://crabby-images/2bef5/2bef5113964bd664f7d7360525dd5aab052c0a06" alt=""
总的来说,数字和英文识别率较高,但是中文的识别率较低。
⑦接下来安装pytesseract,依赖于PIL或Pillow。
data:image/s3,"s3://crabby-images/bf313/bf3132c6dfb79bad358d6a83213217ae0d0f3427" alt=""
data:image/s3,"s3://crabby-images/52e99/52e99a16ac869221ed6af7858e76ee71171235d7" alt=""
安装好后就可以试验一下了:
from PIL import Image
import pytesseract
img = Image.open('code2.png') #打开图片,目前图片放在与tesseract同样的目录下
img = img.convert('L') #使用convert方法转换成灰度图像,识别率更高。也可以省略
print(pytesseract.image_to_string(img)) #转换成字符串输出
img.show() #可以把处理后的图片显示出来
data:image/s3,"s3://crabby-images/2366e/2366e90ae1ff0a7034f880446c6304ea1b60c122" alt=""
data:image/s3,"s3://crabby-images/76abb/76abb4e569161deb3bc33bd975deaa6ee53b8950" alt=""
⑧结果嘛,最后一个5被识别成“S”,其他都还是正确的。
那是否没有办法了呢?或许我们可以试试二值化处理。
from PIL import Image
import pytesseract
img = Image.open(r'C:\Program Files (x86)\Tesseract-OCR\code2.png')
img = img.convert('L')
#img.show()
print(pytesseract.image_to_string(img))
#二值化处理
threshold = 150 #定义临界值
table = []
for i in range(256):
if i < threshold:
table.append(0) #小于临界值的,都定义为0
else:
table.append(1) #大于临界值的,都定义为1
out = img.point(table,"1") #图像模式为"L"时,point方法对应的第二个参数设为”1“。第一个参数table被规定为一个拥有256个值的列表。
out.show()
print(pytesseract.image_to_string(out))
结果竟然成功了。
data:image/s3,"s3://crabby-images/5efe6/5efe6ac0a94b70563cf8cafe961ba697af38e0b1" alt=""
data:image/s3,"s3://crabby-images/2ea7c/2ea7cb850259a645fe4e7a0aca999025bd4fcbba" alt=""
不过,Tesseract仅对容易区分、没有干扰的取现或字符有较好效果,复杂情况下的识别率还有待提高。
网友评论