CCAI 2019｜白翔：经典算法与深度学习相结合，解决不规则文

作者: 人工智能前沿讲习 | 来源:发表于2019-08-26 10:38 被阅读1次

CCAI 2019｜白翔：经典算法与深度学习相结合，解决不规则文
回归算法学习
入门卷积神经网络
学生快速提分——请选“优学策”
使用Tensorflow实现目标检测（一、基础术语篇）
感知机
深度学习之卷积神经网络
计算机科学家做的事情
Tensorflow基础
深度强化学习之DQN-深度学习与强化学习的成功结合

2019年中国人工智能大会（Chinese Congress on Artificial Intelligence 2019，简称“CCAI 2019”）将于在9月21日-22日在青岛胶州召开。白翔教授将出席大会并担任人工智能青年论坛共同主席。

白翔，华中科技大学电子信息与通信学院教授，博士生导师，国家防伪工程中心副主任。担任中国计算机学会计算机视觉专委会（CCF-CV）常务委员，中国图像图形学学会理事，同时担任国际期刊编委或客座编辑。主要从事计算机视觉与模式识别，具体包括目标识别、形状分析、自然场景文字识别及智能交通系统等领域的研究。不规则文字检测和识别一直是文字识别方向研究的难点，它在自然场景图像中的文字识别具有重要的应用。白翔教授在不规则文字的识别、定位和检测三个研究方向上有着丰富经验，他将经典算法与深度学习相结合，获得了惊人的效果。

不规则文字识别

工业界中常用的序列识别模型SRN(Sequence Recognition Network)是不能处理文字发生形变或者弯曲的情况，会导致各类识别错误。针对不规则文字识别问题，白翔教授团队提出了ASTER模型，解决的了对于场景里有形变或方向变化的文字识别问题。ASTER是一个简单且实用的方法，就是先将有形变的文字矫正成规则的文字，再使用SRN进行识别。可以认为ASTER的网络由两部分组成，前面部分是空间变换网络STN (Spatial Transform Network)做矫正，后面是SRN网络做识别，形成任务共享。在加入了STN以后，识别器的性能十分有竞争力，在不规则文字测试集上有很大提升。

白翔教授将ASTER算法进行的应用测试，发现该算法对文字定位十分准确，尤其在英文的识别上十分稳定。

不规则文字定位

对于不规则文字定位问题，白翔教授团队设计了一个网络，能完全端到端识别，又同时能检测曲形、直线或者斜角的文字。但检测任务是在图像水平上做处理，识别任务是在文本区域水平做处理，两个任务之间是有一定冲突的，导致在设计网络做这两个任务的时候非常困难，需要很好的预训练能力，预训练后的参数调节也十分困难，网络适用性不好。为了有效的将检测和识别做到特征共享，白翔提出了一个巧妙的方法：用空间换取时间，用字符级别的标注，换取训练上的方便。要获得每一个字符的中心位置，把它也作为一个分割问题去考虑，并在分割的同时得到字符的类别，这个分割问题也变成多分类问题。在英文识别时有阿拉伯数字0-9和字母A-Z共36种不同的类别。每一类都产生相应的字符对应位置，外加一个整体，这样形成一个多任务，可以完全得到特征上的共享。

本算法能把弯曲的文字甚至是其中包含的水平文字，同时得到其位置和包围盒。还有一个有意思的现象是，当把识别的模块删除后可以发现检测的准确率会降低，说明识别模块对检测是有帮助的。

不规则文字检测

针对不规则文字检测问题，白翔教授提出了TextField识别方法，获得了极好的效果。在这个方法中，白翔使用了他在解决骨架检测(Skeleton Detection)问题时提出的DeepFlux算法，用骨架来标定文字的位置。算法对包含文字的图片构建了一个有指向文字内部，也有指向文字外部的“场”，并进行训练。它的好处是可以通过方向性区分相近的文字，并且能更有力地描述文字之间、局部之间的连接关系和局部的对称性关系。如果用FCN解决这个问题，得到的文字连通性较差，有很强的抖动，平滑性差，甚至有些区域是错误的。但是使用的DeepFlux方法，精度和平滑度都非常好，而且可以更好地去描述物体的上下文，时间复杂度也不错。通过这个例子可以看出，将传统的算法与现有的深度学习相结合，可以焕发奇光异彩。

更多精彩内容，详见CCAI 2019官方网站...

CCAI 2019｜白翔：经典算法与深度学习相结合，解决不规则文
2019年中国人工智能大会（Chinese Congress on Artificial Intelligence...
回归算法学习
回归算法是机器学习中的经典算法之一，本文是对学习线性回归和逻辑回归算法进行的总结，线性回归与逻辑回归算法解决的分别...
入门卷积神经网络
“ 深度学习是在多层神经网络上运用各种机器学习算法，解决文本、图像问题的算法集合。其中卷积神经网络是深度学习的代表...
学生快速提分——请选“优学策”
“优学策”是一款精准的个性化学习提分产品。通过提取每个学生各学科每次考试的成绩，将深度学习算法与博弈论相结合，模拟...
使用Tensorflow实现目标检测（一、基础术语篇）
1、机器学习与深度学习的区别2、深度学习算法是什么，怎么使用深度学习算法3、数据模型是什么4、什么叫目标检测5、t...
感知机
感知机感知机算法是很多算法的鼻祖，比如支持向量机算法，神经网络与深度学习。在学习感知机的构造时可以学习到深度学习...
深度学习之卷积神经网络
深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络...
计算机科学家做的事情
更快提出一个新算法解决之前存在的问题（比如RSA算法解决了加解密的问题）优化之前的算法比如KMP、深度学习（比...
Tensorflow基础
Tensorflow基础 1. 深度学习介绍机器学习与深度学习的区别深度学习的算法本身设计复杂，数据量大，特征...
深度强化学习之DQN-深度学习与强化学习的成功结合
目录概念深度学习与强化学习结合的问题 DQN解决结合出现问题的办法 DQN算法流程总结一、概念原因：在普...