背景:最近公司想开发文档扫描类的应用,于是找到TesseractOCR进行探究。
对TesseractOCR使用遇到的问题
1,配置的时候出现挺多的问题,其中有chi_sim.traineddata文件的配置,比较麻烦,需要找到对应版本的chi_sim.traineddata才能运行,不然提示找不到对应的chi_sim,无法识别中文(提示找不到对应的chi_sim,或者翻译出来的是乱码都是因为这个原因)。chi_sim表示中文简体,GitHub上还有繁体中文的,需要的可以去看下。
2,运行的过程中,效果并不理想,其中很多的文字,显示不出来。
时间稍长一点了,没有配置截图了。
总结:
TesseractOCR针对数字,转换效果还是不错的,但是英文和中文稍差一些。
最后时限功能是用的百度的OCR,效果不错。
链接:https://cloud.baidu.com/product/ocr
网友评论