今天学习Tesserocr框架,遇到了各种问题,现在记录下来作为备忘。
- 安装过程(windows10 64位)
Windows的话先要去下载tesseract。网址如下:
https://digi.bib.uni-mannheim.de/tesseract/
点击这里
最后安装过程要勾选一下那个语言包。如果缺少中文包需要到github上面下载对应的语言包对应的网址如下:
https://github.com/tesseract-ocr/tessdata/find/master
- 问题记录
2.1. 直接pip3 install tesserocr pillow失败
解决办法:
下载对应的whl文件包
https://github.com/simonflueckiger/tesserocr-windows_build/releases
点击这里
将这个whl文件包剪切到对应的python 安装目录之下,之后执行pip3 install 对应版本.whl文件即可。比如我的就是:
pip3 install tesserocr-2.3.1-cp37-cp37m-win_amd64.whl
出现界面如下:
运行结果
之后按照图片识别代码敲进去
出现如下错误:
TIM截图20181125220007.png
缺失相应的模块 解决办法:
pip3 install tesserocr pillow
最后就快要识别图片呀:出现路径的问题:
TIM截图20181125220421.png
解决办法:
将图片放到python安装目录下,并采用绝对路径的方式。并且将tessdata文件夹复制一份到python目录下。
代码如下:
test2和test3图片如下:
test2.png
test3.png
>>> from PIL import Image
>>> import tesserocr
>>> image=Image.open("D://Python/test2.png")
>>> print(tesserocr.file_to_text("D://Python/test2.png"))
1234567
>>> from PIL import Image
>>> import tesserocr
>>> image=Image.open("D://Python/test3.png")
>>> print(tesserocr.file_to_text("D://Python/test3.png"))
xuhacker
ok!普通英文数字测试成功。
但是这时候测试中文出现乱码:
解决办法:
https://www.cnblogs.com/nyist-xsk/p/7762476.html
目前我测试中文图片仍然有问题。以后更新。
参考链接:
https://blog.csdn.net/coolcooljob/article/details/80385711
https://blog.csdn.net/wanghui2008123/article/details/37694307
https://blog.csdn.net/T1243_3/article/details/81211029?utm_source=blogxgwz3
https://www.cnblogs.com/nyist-xsk/p/7762476.html
网友评论