今天笔者看到一个新闻就是一个博士将集体的核算检测结果使用import ***后使用130行代码来完成统计生成报表,笔者一想肯定是python!但是直接读取一群人的核酸结果,笔者一直在想怎么读取或者爬取呢,核算结果目前笔者知道只能自己查看,其他人普通人应该是没有权限的,也没有接口可以让普通人来读取。从新闻中看到ocr几个字,顿时明白了,原来是将所有人的核算截图做个统计!本文来探讨一下EasyOCR,并不是写一下统计需求,笔者的公司是使用腾讯文档来统计的。
笔者以前做过这方面的测试,Python使用easyocr模块完成图片文字识别,可以在easyocr · PyPI 上查看easyocr模块说明信息以及用法,可以github.com/JaidedAI/EasyOCR在查看模型训练方法。经过一段时间的机器学习,EasyOCR原来是使用facebook的深度学习库pytorch作为后端(所以要先安装torch),在指定使用中文或者英语模型时会下载好对应的训练完好的模型,比如reader_ch_sim = easyocr.Reader(['ch_sim', 'en'])就会下载简体中文和英语model,Windows会放在C:\Users\用户名\EasyOCR\model,Linux则放在~/ .EasyOCR / model 目录下。下次执行时会直接加载模型,不会再提醒下载模型了。保存的文件为pytorch模型文件 .pth 文件,通过torch.save()将训练好的模型保存下来的。下面是笔者在Linux环境下下载的几个语言的模型,
EasyOCR的框架如下,在笔者前期学习了深度学习的知识后才能看懂整个框架的一部分。LSTM长短时记忆,ResNet残差神经网络,Pipeline训练流水线,但是仅局限于知道这个东西而已。对于整个流程仍需要功力,因前期是从tensorflow开始的神经网络,目前也在专注于tensorflow深度学习,不过接口简洁的pytorch这在越来越流行了。
网友评论