机器视觉原理与案例详解
工控帮教研组编著
电子工业出版社
2020.7
ISBN 978-7-121-39084-5
一、字符识别
1、定义
- 字符识别是模式识别领域中一个非常活跃的分支。
字符识别(Optical Character Recognise,OCR)是对纸上的打印字符进行识别,并将识别结果以文本的方式存储在计算机中。
字符识别可以应用在证件识别、文字读取等方面。
2、分类
-
通常情况下,字符识别技术根据识别的字符类型可分为印刷体字符识别和手写体字符识别两大类。
因为手写体字符的拓扑结构具有多样性,因此,手写体字符的识别难度高于印刷体字符的识别难度。 -
字符识别技术根据输入方式的不同可分为联机识别(也称为在线识别)和脱机识别(也称为离线识别)。
· 联机识别是对所书写的字符进行实时识别、即写即识。所以,联机识别技术往往通过结合字符的笔画顺序进行识别。
· 在脱机识别中,首先通过扫描仪将已经写在纸上的字符转换为二值化图像,然后对二值化图像进行识别。由于书写与识别可以分开进行,因此,在脱机识别技术中不涉及字符的书写顺序。
3、印刷体字符识别
- 在印刷体字符的识别流程中,文本的行列切分、文本的特征提取、与标准字符进行匹配是印刷体字符识别的核心技术,图像预处理是必备环节。
- 在对原始图像进行识别处理之前,应尽可能降低干扰因素的影响,即对原始采样信号进行预处理。图像预处理通常包括版面分析、二值化处理、倾斜校正、汉字切分、归一化处理、平滑处理、细化处理等。
4、手写体字符识别
- 在线手写体字符识别:
一般包括预处理、特征提取、分离字符等步骤。我们常说的手写体字符识别就是在线手写体字符识别。
例如,智能手机、计算机等均有手写功能。
这种识别方式方便、简单,可以取代键盘或鼠标。 - 离线手写体字符识别:
将预先采集好的图像或文本,通过扫描设备转换成计算机可以使用的字符代码。
由于离线手写体字符的风格迥异,因此识别较为困难。
网友评论