哲哲的ML笔记（三十六：应用实例：图片文字识别）

作者: 沿哲 | 来源:发表于2021-05-10 20:14 被阅读0次

哲哲的ML笔记（三十六：应用实例：图片文字识别）
哲哲的ML笔记（二：模型）
哲哲的ML笔记（四：矩阵）
哲哲的ML笔记（三：梯度下降）
哲哲的ML笔记（七：学习率）
哲哲的ML笔记（九：正规方程）
哲哲的ML笔记（十八：反向传播）
哲哲的ML笔记（十一：决策边界）
哲哲的ML笔记（十四：正则化）
哲哲的ML笔记（三十二：推荐系统）

OCR

图像文字识别应用所作的事是，从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。

图1

为了完成这样的工作，需要采取如下步骤：

文字侦测（Text detection）——将图片上的文字与其他环境对象分离开来
字符切分（Character segmentation）——将文字分割成一个个单一的字符
字符分类（Character classification）——确定每一个字符是什么

滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人，首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁，然后将剪裁得到的切片交给模型，让模型判断是否为行人，然后在图片上滑动剪裁区域重新进行剪裁，将新剪裁的切片也交给模型进行判断，如此循环直至将图片全部检测完。

一旦完成后，我们按比例放大剪裁的区域，再以新的尺寸对图片进行剪裁，将新剪裁的切片按比例缩小至模型所采纳的尺寸，交给模型进行判断，如此循环

滑动窗口技术也被用于文字识别，首先训练模型能够区分字符与非字符，然后，运用滑动窗口技术识别字符，一旦完成了字符的识别，我们将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。接着我们以宽高比作为过滤条件，过滤掉高度比宽度更大的区域（认为单词的长度通常比高度要大）。根据图1，下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的。