照片OCR技术中的应用历史涉及3个部分:
1. 一个复杂的机器学习系统是如何被组合起来的
2.机器学习流水线(machine learning pipeline)的有关概念以及在决定下一步做什么时如何分配资源
3.如何将机器学习应用到计算机视觉问题中和人工数据合成(artificial data synthesis)的概念
照片OCR表示照片光学字符识别(photo optical character recognition),即如何让计算机更好地理解这些照片的内容,主要解决的问题是让计算机读出照片中拍到的文字信息。这样的话,你可以通过输入照片中的文字,然后让计算机就自动地找出这张照片。
照片OCR照片OCR步骤(文字检测 字符分割 字符分类 ):
1.给定某张图片把图像浏览一遍,找出这张图片中的文字信息
2.重点关注这些文字区域并且在这些区域中对文字内容进行识别,如果能正确读出的话,它会将这些内容进行转录
3.通过得到的文字区域的矩形轮廓进行字符切分
4.运行一个分类器,输入这些可识别的字符,然后试着识别出
实际上很多OCR系统会进行更为复杂的处理,比如在最后会进行拼写校正
照片OCR 流水线机器学习流水线(machine learning pipeline):流水线中会有多个不同的模块,其中每个模块都可能是一个机器学习组件,或者有时候这些模块也不一定是机器学习组件,只是一个接一个连在一起的一系列数据,最终得出你希望的结果。如果你要设计一个机器学习系统,如何将这个问题分成一系列不同的模块,你需要设计这个流程以及你的流水线中的每一个模块。使用流水线的方式通常提供了一个很好的办法来将整个工作分给不同的组员去完成。
照片OCR 流水线照片OCR衍生了很多应用:
1.帮助盲人,提供一种照相机识别路牌
2.汽车导航系统;车能读出街道的标识并且将你导航至目的地
网友评论