美文网首页Java 杂谈
厉害了!Java开发的文字识别技术首次亮相,这个操作太厉害了吧!

厉害了!Java开发的文字识别技术首次亮相,这个操作太厉害了吧!

作者: a847c1ac3b3f | 来源:发表于2019-05-18 15:51 被阅读1次

字识别是利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。

java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google。tesseract-ocr 3.0发布,支持中文。不过tesseract-ocr 3.0不是图形化界面的客户端,别人写的FreeOCR图形化客户端还不支持导入新的 3.0 traineddata。但这标志着,现在有自由的中文OCR软件了。 

如果有想学习java的同学,可来我们的java技术学习QQ群:928204055,免费送整套系统的java视频教程!我每晚上8点还会在群内直播讲解Java知识,欢迎大家前来学习哦~下面是部分资料截图:

java中使用tesseract-ocr3.01的步骤如下:

1.下载安装tesseract-ocr-setup-3.01-1.exe(3.0以上版本才增加了中文识别)

2.在安装向导中可以选择需要下载的语言包。

3.到网上搜索下载java图形处理所需的2个包:jai_imageio-1.1-alpha.jar,swingx-1.6.1.jar

4.java程序清单:

ImageIOHelper 类:

OCR 类:

测试类TestOCR :

经过测试,tesseract-ocr 3.01的文字识别率很高,对于网站中常见的验证码识别率也很高。

欢迎关注胖胖爱Java的简书号,可视化学习java,每天更新文章,让Java学习更加简单。

声明:本文内容来源于网络,如有侵权请联系删除

相关文章

网友评论

    本文标题:厉害了!Java开发的文字识别技术首次亮相,这个操作太厉害了吧!

    本文链接:https://www.haomeiwen.com/subject/fdjtzqtx.html