tesseract-ocr是目前做得最好的一款开源OCR软件,包括PC版本和Android版本tess-two。但是由于1)包含了较为复杂的页面分析;2)最早为英语开发,后扩展到多种语言,需要适应的范围广,导致其用于汉字OCR时速度较慢、效率较低。按不同的电脑配置,10个汉字需要2~5秒。本人之前由于项目需要,对tesseract-ocr源代码进行了深入的学习分析,可根据特定的应用场景对tesseract-ocr和tess-two进行核心代码层级的优化,使运行效率提高一个数量级。本人之前的项目,原生代码识别10个汉字需要2~3秒,优化后运行时间为100~200毫秒。详细情况可以联系我QQ34841693。
网友评论