2018-01-13 mac上字库训练(Tesseract-OC

作者: 晚唐枫叶 | 来源:发表于2018-04-17 17:00 被阅读0次

2018-01-13 mac上字库训练(Tesseract-OC
Mac 下设置matplotlib显示中文
基于Tesseract的OCR识别
tesseract训练字库
字体
react-native-vector-icons的使用
研究道藏、古籍工具之输入法，工欲善其事必先利其器
Tess4J字库训练
在线字库无法使用
制作汉字库

零、软件功用和我使用背景

目标是识别某个app上所有的带汉字按钮。

一、参考文献及我的评判：

mac上文字识别(Tesseract-OCR for mac ) http://www.jianshu.com/p/016e55c25521 没有Tesseract-OCR使用经验建议先阅读这篇

https://blog.csdn.net/u010670689/article/details/78374623 训练字库参考

二、意外问题一览

识别成功率主要取决于你的字库。可以自行识别汉字录入字库。

识别成功率也受图片质量影响，背景要纯，文字对比全图要尽量大，但上下左右都要离开边缘4个像素。

三、基本流程命令

brew install tesseract

brew install --with-training-tools tesseract (加装一下训练工具)

下载中文语言库 https://github.com/tesseract-ocr/tessdata

命令行识别图片：

tesseract -l chi_sim huanyige.png a 识别中文图片

tesseract -l chi_sim+eng huanyige.png a 识别中文加英文图片

a表示输出文件名，写a就会输出到a.txt中。

tesseract --list-langs 列一下当前可用字库

python库 pytesseract

image_to_string(image, lang=None, boxes=False, config=None)

（可以识别文字同时，返回坐标，但实践加了要求同时提供坐标以后，出现识字不准问题，不清楚原因）

自行训练生成字库：

1）合并素材图片

jTessBoxEditor 合并多张图片merge tiff 得到huiyi.fitt

2）生成box文件

tesseract huiyi.tif huiyi -l chi_sim -psm 10 batch.nochop makebox

3）生成tr文件

。。。

算了隳易的文已经写的挺好，感谢。不准备把人家的东西抄一遍，毫无意义嘛。

想运用深度学习，自己训练个给力点的字库。到时候再记好了。

网友评论

本文标题：2018-01-13 mac上字库训练(Tesseract-OC

本文链接：https://www.haomeiwen.com/subject/xkqpixtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-01-13 mac上字库训练(Tesseract-OC

相关文章