刚开始有电脑时,我们辛辛苦苦地去背字根,学习五笔输入法,为的是能用电脑输入文字。没有过多少年,听说电脑能够识别图片中的文字,能提取照片中的文字,把它转成编码的文本文字,那时候要保存文档要靠扫描仪扫描后以“照片”形式存入电脑,但这样存储下来的文档不方便对文字进行编辑。
一开始听说电脑能识别图片中的文字时,感觉它是很厉害的一个技术,但那时可拍照的智能手机还没有普及,一直未能见识到它的应用。在网上得到介绍是:
“1929年德国人 Tausheck取得了光学字符识别的专利,之后各国逐渐开始针对OCR技术进行研究。早期的研究内容主要是针对识別方法的理论研究,后来开始针对简单的0~9数字进行识别。直到1966年IBM公司的 Casey和Nagy才开始了针对汉字等复杂字符的识别进行研究,并且使用模板匹配的方法识别了1000个印刷体汉字。20世纪70年代初日本的学者也开始了汉字识别研究,其中有代表性的成果有1977年东芝综合研究所研制的可以识别2000个单体印刷汉字的OCR识别系统。
中国在OCR技术方面的研究工作起步较晚,直到70年代才逐渐开展了对于光学字符识别的研究。我国在1986年提出“863”高新科技研究计划,“863”计划的信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家科研单位展开中文OCR的研发工作,将中国的汉字识别的研究进入一个实质性的阶段,并由清华大学率先推出了国内最早的OCR产品。早期的OCR技术研究是基于模式识别的基础上进行的,模式识别的每一个模块都需要很好的设计,才能使整个系统达到较好的识别效果。
随着近年深度学习的不断发展,基于卷积神经网络的OCR技术打破了传统OCR技术的框架,在识别效率以及准确率上都有了质的飞跃。国际文档分析与识别大会( international conference ondocument analysis and recognition,ICDAR)于2003年大会设立“Robust Reading Competitions”,该竞赛主要评测和检验自然场景、网络图片、复杂视频文本自动提取与智能识别最新技术的性能,并设立了丰厚的奖金。该竞赛极大地促进了OCR技术的发展,目前已经成为OCR技术研究进展重要的国际赛事及标准。由于竞赛强大,实际应用性、高技术难度、诸多科研院校、科技公司都参与其中,目前已有89个国家的3500多支队伍参与。”
猜想是图像经过那种“非黑即白”的处理之后,把图形中的文字转换带有参数的数字模型与数据库中的文字进行比对。
有一次,在拍照保存女儿的作文时,用软件上提取文字的功能,把图片中的文字转换成文本,发现它的识别率还是相当高的,虽然费了不少时间去修改其中的错误,但也节省了不少打字输入的时间。
某度与某信上均有图片文字识别功能,但我感觉某度的识别能力要比某信差很多,大多图片出现弯曲变形或出现一些生僻字时,某度会出现很多错误。人类的能力显然要比它强大很多,甚至把一段文字拆分得乱七八糟,人也能把它拼凑起来,读懂它的意思。机器显然是办不到的。
这项识别能力,机器是不能与人类的感官与思维相媲美的。不管人工智能如何发展,人工智能只能是人类的助手。全面超越制造出它的人类应该是不可能的,创造人类的“上帝”都还没有认识清楚,妄想充当“上帝”未免有些狂妄自大了。
网友评论