美文网首页
2018-01-13 mac上字库训练(Tesseract-OC

2018-01-13 mac上字库训练(Tesseract-OC

作者: 晚唐枫叶 | 来源:发表于2018-04-17 17:00 被阅读0次

    零、软件功用和我使用背景

    目标是识别某个app上所有的带汉字按钮。

    一、参考文献及我的评判:

    mac上文字识别(Tesseract-OCR for mac )  http://www.jianshu.com/p/016e55c25521 没有Tesseract-OCR使用经验建议先阅读这篇

    https://blog.csdn.net/u010670689/article/details/78374623 训练字库参考

    二、意外问题一览

    识别成功率主要取决于你的字库。可以自行识别汉字录入字库。

    识别成功率也受图片质量影响,背景要纯,文字对比全图要尽量大,但上下左右都要离开边缘4个像素。

    三、基本流程命令

    brew install tesseract

    brew install --with-training-tools tesseract (加装一下训练工具)

    下载中文语言库 https://github.com/tesseract-ocr/tessdata 

    命令行识别图片:

    tesseract -l chi_sim huanyige.png a  识别中文图片

    tesseract -l chi_sim+eng huanyige.png a  识别中文加英文图片

    a表示输出文件名,写a就会输出到a.txt中。

    tesseract --list-langs 列一下当前可用字库

    python库 pytesseract

    image_to_string(image, lang=None, boxes=False, config=None)

    (可以识别文字同时,返回坐标,但实践加了要求同时提供坐标以后,出现识字不准问题,不清楚原因)

    自行训练生成字库:

    1)合并素材图片

    jTessBoxEditor 合并多张图片merge tiff   得到huiyi.fitt

    2)生成box文件

    tesseract huiyi.tif huiyi -l chi_sim -psm 10 batch.nochop makebox

    3)生成tr文件

    。。。

    算了  隳易的文已经写的挺好,感谢。不准备把人家的东西抄一遍,毫无意义嘛。

    想运用深度学习,自己训练个给力点的字库。到时候再记好了。

    相关文章

      网友评论

          本文标题:2018-01-13 mac上字库训练(Tesseract-OC

          本文链接:https://www.haomeiwen.com/subject/xkqpixtx.html