第十一周 Lecture 18
-
问题描述:从一张照片识别出文本 Photo OCR(Optical Character Recognization)
流水线(Pipeline)
image.png
-
文本检测,使用滑动窗口(sliding window)
设计一个w * h 大小的矩形,判断是否有文本(可以使用逻辑回归或神经网络的方法判断),每次向右移动w1象素,再判断,移到最右边后,再向下移动h1象素,循环判断。如下图例所示:
image.png
image.png
-
字母分割
滑动窗口,找到两个字母交界处(使用使用逻辑回归或神经网络的方法判断)
然后中间分割一下。
image.png
- 字母识别
使用使用逻辑回归或神经网络的方法即可
- 获得大量数据和人工数据(get lots of data/Artificial data synthesis)
-
人工生成训练数据
例如:字母识别,可以使用不同的字体重新生成数据
image.png
再如:对于语音识别,人为制造噪音(noisy)
- 获得更多训练数据的要点
- 增加训练数据前,要确保算法已经是“低偏差” low bias
- 如果获得更多数据
用代码人工生成(Artificial data synthesis)
人工标记 Collect / Label it your self ,使用“众包”(crowd source)
- 天花板分析(ceiling analysis)
决定对哪个模块付出更多投入,或是哪些投入最有效
方法是:假设某一步的准确率为100%时,总结准确率会变成多少。如果将某一步的准确率设为100%后,总体的准确率有较大的提高,说明这一步投入的精力/努力是有价值的。
网友评论