安装 Tesseract 4.0.0
-
配置环境变量
-
将 tessdata 文件夹复制至 Python/Anaconda 安装目录中
-
测试是否安装成功
# cmd 输出版本号
tesseract -v
- 使用tesseract
- cmd进入图片目录
- 输入命令行
tesseract <picture_file> <output_file_name> -l chi_sim
- 目录下找到输出文件 result.txt
使用tesseract-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
- 踩坑
ERROR: tesserocr-2.4.0-cp37-cp37m-win_amd64 (1).whl is not a supported wheel on this platform.
python -m pip install --upgrade pip
安装 Tesserocr
pip3 install pillow
- 下载安装与Tesseract 版本对应的 Tesserocr文件地址 (github.com)
-
pip install tesserocr-2.4.0-cp37-cp37m-win_amd54.whl
install tesserocr - 测试
# cmd python环境导入包tesserocr
>> python
>> import tesserocr
使用 tesserocr
- 踩坑
报错没有Microsoft C++ Build Tools
- 下载Microsoft C++ Build Tools
- 下载匹配的whl文件,文件地址 (github.com)
.whl 文件只有python3.7及3.6的,python从3.8降为3.7 -
conda install python=3.7
python从3.8降为3.7后,pip不匹配,卸载pip后重新安装 ImportError: cannot import name 'InvalidSchemeCombination' from 'pip._internal.exceptions'报错
- 删除报错文件夹下的pip和pip-20.2.4-py3.7.egg-info文件夹
- 使用
conda remove --force pip
命令强制删除环境中pip - 使用
conda install -c anaconda pip
命令重新安装pip
参考文章:
- pip3 install tesserocr安装失败(已解决)_zoujin6649的博客-CSDN博客_tesserocr安装失败
- Tesseract-OCR 安装、中文识别与训练字库_氦叁的博客-CSDN博客
- Tesserocr库安装与使用 - 知乎 (zhihu.com)
- ImportError: cannot import name 'InvalidSchemeCombination' from 'pip._internal.exceptions'报错解决 - 嘉禾旧木 - 博客园 (cnblogs.com)
- Release tesserocr v2.4.0 (tesseract 4.0.0) · simonflueckiger/tesserocr-windows_build (github.com)
- tesserocr:第三方模块tesserocr安装 - 云+社区 - 腾讯云 (tencent.com)
网友评论