物体识别技术长篇研究

作者: 放飞人夜 | 来源:发表于2020-02-06 21:42 被阅读0次

物体识别技术长篇研究
初识人脸识别
人脸识别长篇研究
20180315周四～积累技术
随笔
科研管理工作小结。
[Mediapipe]bazel编译与aar文件生成
2020年指纹识别行业市场规模如何？
语音识别长篇研究（五）
语音识别长篇研究（三）

一、物体识别的发展史

1）物体识别的理解

物体识别是计算机视觉领域中的一项基础研究，它的任务是识别出图像中有什么物体，并报告出这个物体在图像表示的场景中的位置和方向。目前物体识别方法可以归为两类：基于模型的或者基于上下文识别的方法，二维物体识别或者三维物体识别方法。对于物体识别方法的评价标准，Grimson 总结出了大多数研究者主要认可的 4 个标准：健壮性（robustness）、正确性（correctness）、效率（efficiency）和范围（scope）。

2）物体识别的发展简史

（1）20世纪60年代：

当时MIT的计算机教授组织了一个面向本科生的两个月的Summer Project。这个Project的目的是设计一个系统，能够智能识别场景里头的物体，并区分出类别。当时他们低估了这个问题的难度，结果可想而知。

原因是我们看到的这个物体的样子，只是它在某种背景下某一种光线条件下特定角度的投影的，换一个角度可能就是完全不同的样子。即使是同一个物体，例如人，躺着或者站着，形态都是不一样的。

（2）20世纪50年代初到90年代

这个时期基本都是尝试用创建三维模型方法去做物体识别。通常，事先定义一些基本的几何形状，然后把物体表示为基本几何形状的组合，然后去匹配图像。这时候识别问题变成了一个匹配问题。在三维模型库中去搜索可能的视角投影，跟待识别的图像进行匹配。如果找到最合适的匹配，就认为是识别成功了。

但是这么做并不是很有效。首先，很多物体很难用所谓的基本几何形状去描述它，特别是一些非刚体，比如动物；其次，对于一类物体，它可能会有丰富的类内差异性，即使是同一个物体在不同的姿态下也不一样，不可能每一种姿态都预先创建一个三维模型模板；第三，即使解决了之前的问题，如何才能准确地从图像中提取出这些几何形状也存在困难。

（3）20世纪90年代之后

此时的主流方法是只从图像本身考虑，而不去管物体原来的三维形状。这类方法统一叫做appearance based techniques。所谓appearance, 从模式识别的角度去描述的话，就是图像特征（feature），即对图像的一种抽象描述。有了图像特征，就可以在这个特征空间内做匹配，或者分类。然而这个方法还是存在很多问题，首先它需要我们对所有的图片进行对齐，像人脸图像，就要求每一幅图中五官基本在固定的位置。但是很多应用场景下，目标并不是像人脸那么规整，很难去做统一对齐，而且这种基于全局特征和简单欧式距离的检索方法，对复杂背景，遮挡，和几何变化等并不适用。

（4）2000年之后

物体识别领域有了较大的发展。首先图像特征层面，人们设计了各种各样的图像特征，像SIFT,HOG，LBP等等。与此同时，机器学习方法的发展也为模式识别提供了各种强大的分类器。后来人们还在对物体建模方面做了一些工作，旨在用更灵活的模型，而不是单一的模板去定义物体。

随着人工智能、大数据和深度学习技术的不断发展，以及3D传感器、深度摄像头等硬件的不断升级，利用深度信息进行三维物体识别的技术，逐渐受到苹果公司等科技大牛和高通等厂商重视，并被植入到硬件产品中。

举个例子，苹果即将推出的新一代手机中可能搭载3D扫描识别技术，即在传统平面识别的基础上，能够识别出人脸或者物体的3D外部轮廓，比如系统能够扫描出一个立体的脸部，从而大幅度增加识别的准确性，这种技术也避免了过去用一张照片就欺骗平面识别系统的问题。

二、物体识别的主要技术及流程

1）物体识别的步骤

（1）图片的预处理

预处理几乎是所有计算机视觉算法的第一步，其动机是尽可能在不改变图像承载的本质信息的前提下，使得每张图像的表观特性（如颜色分布，整体明暗，尺寸大小等）尽可能的一致，主要完成模式的采集、模数转换、滤波、消除模糊、减少噪声、纠正几何失真等操作。

预处理经常与具体的采样设备和所处理的问题有关。例如，从图象中将汽车车牌的号码识别出来，就需要先将车牌从图像中找出来，再对车牌进行划分，将每个数字分别划分开。做到这一步以后，才能对每个数字进行识别。以上工作都应该在预处理阶段完成。在物体识别中所用到的典型的预处理方法不外乎直方图均衡及滤波几种。像高斯模糊可以使之后的梯度计算更为准确；而直方图均衡可以克服一定程度的光照影响。值得注意的是，有些特征本身已经带有预处理的属性，因此不需要再进行预处理操作。

预处理通常包括五种基本运算：

(1)编码：实现模式的有效描述，适合计算机运算。

(2)阀值或者滤波运算：按需要选出某些函数，抑制另一些。

(3)模式改善：排除或修正模式中的错误，或不必要的函数值。

(4)正规化：使某些参数值适应标准值，或标准值域。

(5)离散模式运算：离散模式处理中的特殊运算。

（2）特征提取

1、简介：

特征提取是物体识别的第一步，也是识别方法的一个重要组成部分，好的图像特征使得不同的物体对象在高维特征空间中有着较好的分离性，从而能够有效地减轻识别算法后续步骤的负担，达到事半功倍的效果，下面对一些常用的特征提取方法进行介绍。

近年来，子空间方法，如主成分分析(PCA)，辨别成分分析(LDA)，也成为一种相对重要的特征提取手段。这种方法将图像拉长成为高维空间的向量，并进行奇异值分解以得到特征方向。人脸识别便是其较为成功的应用范例。此类方法能处理有全局噪声的情况，并且模型相当简单易实现；然而这种算法割裂了图像的内部结构，因此在本质上是非视觉的，模型的内在机制较难令人理解，也没有任何机制能消去施加于图像上的仿射变换。

2、图像特征提取方法：

图像特征提取就是提取出一幅图像中不同于其他图像的根本属性，以区别不同的图像。如灰度、亮度、纹理和形状等等特征都是与图像的视觉外观相对应的；而还有一些则缺少自然的对应性，如颜色直方图、灰度直方图和空间频谱图等。基于图像特征进行物体识别实际上是根据提取到图像的特征来判断图像中物体属于什么类别。形状、纹理和颜色等特征是最常用的视觉特征，也是现阶段基于图像的物体识别技术中采用的主要特征。

3、图像颜色特征提取：

图像的颜色特征描述了图像或图像区域的物体的表面性质，反映出的是图像的全局特征。一般来说，图像的颜色特征是基于像素点的特征，只要是属于图像或图像区域内的像素点都将会有贡献。

典型的图像颜色特征提取方法：颜色直方图，颜色集，颜色矩。

1) 颜色直方图是最常用的表达颜色特征的方法.

优点：能简单描述图像中不同色彩在整幅图像中所占的比例，特别适用于描述一些不需要考虑物体空间位置的图像和难以自动分割的图像。

缺点：它无法描述图像中的某一具体的物体，无法区分局部颜色信息。

2) 颜色集方法可以看成是颜色直方图的一种近似表达。具体方法是：首先将图像从 RGB 颜色空间转换到视觉均衡的颜色空间；然后将视觉均衡的颜色空间量化；最后，采用色彩分割技术自动地将图像分为几个区域，用量化的颜色空间中的某个颜色分量来表示每个区域的索引，这样就可以用一个二进制的颜色索引集来表示一幅图像。

3) 颜色矩方法是基于图像中任何的颜色分布都可以用相应的矩来表示这个数学基础上的。由于颜色分布信息主要集中在低阶矩中，因此，表达图像的颜色分布仅需要采用颜色的一阶矩、二阶矩和三阶矩。

4、图像纹理特征提取：

图像的纹理是与物体表面结构和材质有关的图像的内在特征，反映出来的是图像的全局特征。图像的纹理可以描述为：一个邻域内像素的灰度级发生变化的空间分布规律，包括表面组织结构、与周围环境关系等许多重要的图像信息。

典型的图像纹理特征提取方法：统计方法，几何法，模型法，信号处理法。

1) 统计方法是灰度共生矩阵纹理特征分析方法；

2) 几何法是建立在基本的纹理元素理论基础上的一种纹理特征分析方法；

3) 模型法是将图像的构造模型的参数作为纹理特征；

4) 信号处理法主要是小波变换为主。

5、图像形状特征提取：

形状特征是反映出图像中物体最直接的视觉特征，大部分物体可以通过分辨其形状来进行判别。所以，在物体识别中，形状特征的正确提取显得非常重要。

常用的图像形状特征提取方法有两种：基于轮廓的方法和基于区域的方法。

这两种方法的不同之处在于：对于基于轮廓的方法来说，图像的轮廓特征主要针对物体的外边界，描述形状的轮廓特征的方法主要有：样条、链码和多边形逼近等；而在基于区域的方法中，图像的区域特征则关系到整个形状区域，描述形状的区域特征的主要方法有：区域的面积、凹凸面积、形状的主轴方向、纵横比、形状的不变矩等。这些关于形状的特征目前已得到了广泛的应用。典型的形状特征描述方法有：边界特征法，傅里叶形状描述符法，几何参数法，形状不变矩法。

6、空间特征提取：

空间特征是指图像中分割出来的多个目标之间的相互的空间位置或者相对方向关系，有相对位置信息，比如上下左右，也有绝对位置信息，常用的提取空间特征的方法的基本思想为对图像进行分割后，提取出特征后，对这些特征建立索引。

（3）特征选择

再好的机器学习算法，没有良好的特征都是不行的；然而有了特征之后，机器学习算法便开始发挥自己的优势。在提取了所要的特征之后，接下来的一个可选步骤是特征选择。特别是在特征种类很多或者物体类别很多，需要找到各自的最适应特征的场合。严格地来说，任何能够在被选出特征集上工作正常的模型都能在原特征集上工作正常，反过来进行了特征选择则可能会丢掉一些有用的特征；不过由于计算上的巨大开销，在把特征放进模型训练之前还得进行特征选择。

（4）建模

一般物体识别系统赖以成功的关键基础在于属于同一类的物体总是有一些地方是相同的。而给定特征集合，提取相同点，分辨不同点就成了模型要解决的问题。因此可以说模型是整个识别系统的成败之所在。对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法。

（5）匹配

在得到训练结果之后（在描述、生成或者区分模型中常表现为一簇参数的取值，在其它模型中表现为一组特征的获得与存储），接下来的任务是运用目前的模型去识别新的图像属于哪一类物体，并且有可能的话，给出边界，将物体与图像的其它部分分割开。一般当模型取定后，匹配算法也就自然而然地出现。在描述模型中，通常是对每类物体建模，然后使用极大似然或是贝叶斯推理得到类别信息；生成模型大致与此相同，只是通常要先估出隐变量的值，或者将隐变量积分，这一步往往导致极大的计算负荷；区分模型则更为简单，将特征取值代入分类器即得结果。

（6）定位

在成功地识别出物体之后，对物体进行定位成为进一步的工作。一些模型，如描述生成模型，或是基于部分的模型天生具有定位的能力，因为它们所要处理的对象就是特征的空间分布，而特征包方法相对较难定位，即使是能定位，准确程度也不如前者。不过近年来经过改进的特征包方法也可以做相当精确的定位。一部分是因为图像预分割及生成模型的引入，另一部分则归功于一些能够对特征包得到的特征进行重构的方法。

2）物体识别的主要方法（由于方法太多，只列举几种）

（1）基于统计的方法与基于物体部件的方法：

根据识别方法是否对局部特征之间的关系建模，可以把识别方法分为基于统计的方法与基于物体部件的方法。

1、基于统计的物体分类方法（BoW：Bag of Words）

BoW模型严格上讲并不是一种物体识别方法，而是一种物体分类方法。这种模型的灵感来自于NLP中的BoW模型。。一幅图像可以看作是一篇“文档”,而图像中提取出的特征认为是“词语”。

1）生成性方法的学习与识别

生成性的学习方法通过先验知识去拟合并解释图像中的信号。在中,有两种主要的生成性方法,一种是NB（朴素贝叶斯），另外一种是pLSA（概率潜语义分析）与LDA（线性判别分析）。

在NB中，根据特征在图像中出现的频率,利用后验概率来推断图像的类别属性：

pLSA在上述模型中引入了一个隐藏变量z，用来表征物体类别。其基本出发点是图像按照某种概率来产生各种物体，这些物体再按照某种概率来产生特征词语。

2）鉴别性方法的学习与识别

如果说生成性方法最后要得出的结论是图像中包含某类物体的可能性有多大的话,鉴别性的方法最后要得出的结论是图像中包含某类物体的可能性相比于包含其它类物体的可能性的比值是多少,或者说比较哪种可能性更大,从而帮助做出推理判断。

2、基于物体部件的识别

前述BoW的一个主要缺陷就是没有对特征之间的关系进行建模，因此无法刻画各个特征在空旬中的顺序关系。基于物体部件方法的出发点正是要解决这个问题。在这里物体部件的定义并不一定是指高层语义上的物体部件例（如眼睛、鼻子之于人脸）,也可以是一些底层的图像特征,例如图像或者点特征。

（2）自顶向下的识别方法与自底向上的搜索方法

根据识别方法的搜索方向，可以将识别分为自顶向下的识别方法与自底向上的搜索方法。前一种方法通常有一个先验物体模型，通过在图像中寻找这个先验模型来实现物体检测。后一种方法从图像的底层或中层信号例如图像分割块，轮廓线条出发，按照某种规则从物体部分逐步构造至物体整体，在构造过程中通常采用一定的能量函数对构造结果进行评估与验证。

虽然自顶向下的方法可以快速定位到物体,但是由于特征匹配的局部性，容易产生较多的假检测，这些假检测往往会破坏底层图像的完整性语义。自底向上的方法在搜索过程中保持了底层图像语义图像分割、轮廓线等的完整性，但通常需要设计良好的搜索规则与策略，并花费很大的力气来完成搜索。因此,越来越多的方法开始结合这两个方向来进行物体识别，利用自顶向下的过程快速定位到可能的物体，然后在自底向上的过程中，加入图像底层语义不可再分割的约束对检测到的可能物体进一步验证，最终达到好的检测效果。

（3）生成性方法与鉴别性方法（基本原理上面已提到过）

1、生成性方法的一个优点在于，给定一个模型,进行学习之后，可以根据学到的规则在图像中找到模型中没有的物体，只要这个物体不违反模型的定义。这种方法可以达到较高的识别率，但是识别精度不高。例如,如果只给定一些苹果的模型，一个具有良好的生成性方法会把图像中凡是与圆形相似的形状都找出来。

2、鉴别性方法通过增加反例来排除假检测，例如,给定苹果的同时再给出一些梨的图片作为反例，通过学习到这两类的差别，检测器就有可能把貌似苹果但更像梨的结果去除掉。

（4）基于模型（model）的物体识别方法

现在主流的物体识别的基本方法都可以集合为一类：基于模型的物体识别。基于模型的物体识别方法首先需要建立物体模型，然后使用各种匹配算法从真实的图像中识别出与物体模型最相似的物体，它的主要任务就是要从二维或三维图像抽取的特征中，寻找出与模型库中已建好的特征之间的对应关系，以此来预测物体是什么。

这个方法主要涉及到两个难点，一是如何选取合适的图像特征以及如何改进，二是如何恰当的定义物体模型并建立抽取的特征与模型库中特征的对应关系。

（5）基于上下文（context）物体识别方法

在现实世界中，物体所处的情景为识别物体提供了更加丰富有用的信息，在现实世界中任何一个物体都不会单独的出现，它会出现在某些情景中，或者伴随其他物体一起出现，当人们观察并推测一个物体是什么时，除了根据物体自身具备的特征之外，还有就是基于物体所处的上下文来推断。虽然基于模型的物体识别方法仅仅利用了物体的特征信息，有效缩减了识别物体的时间，但是却完全忽略了物体出现的情景，这时就会引出一些错误的判断，比如在网球场，如果不考虑网球场这个场景，那么网球就会被识别为柠檬，当考虑到场景时，网球会很快并且被识别出来，并且不会被识别错，于是研究者们在研究物体识别的方法时，开始考虑物体所处的上下文，结合上下文，有助于更好的解释物体，比如玩具车和真实的轿车，他们所处的场景是不同的，有些物体也只能出现在某些场景。

基于上下文识别物体的难点在于如何对物体与其上下文之间建立关系，这些关系比如有，桌子和椅子很容易同时出现，大象和床非常不可能同时出现，车很多时候都是出现在马路上等，物体与其上下文之间的关系也有强弱之分，比如一个盘子大部分时候是出现在桌子上，但是出现在其他地方也是有可能，但是消火栓会一直在人行道上，对于这些物体与上下文之间的强弱关系，现在已有相关工作进行了概述。物体与其上下文之间的关系是通过对包含此物体的图像的低级特征进行统计得出的。

3）物体识别的性能评估方法

判定物体识别的性能通常采用PR曲线。其中P（Precision）指精度（精确率），一般为y轴；R（Recall）指识别率（召回率），一般为x轴。

P=（识别正确的结果）/（所有识别结果）；R=（识别正确的结果）/（实际上正确的结果）。识别结果的类型如下：

一个好的识别方法应该同时具备高的精确率与高的召回率。精确率等于0.5是一个界限,当精度低于0.5时，说明该方法的效率己经低于随机猜测的结果，（因为随机猜测的精确率为0.5）。除了PR曲线,也有文献使用其它曲线来度量识别结果，如ROC曲线或FPPW等。

4）物体识别的困难与前景

虽然物体识别已经被广泛研究了很多年，研究出大量的技术和算法，物体识别方法的健壮性、正确性、效率以及范围得到了很大的提升，但是现在依然存在一些困难以及识别障碍。这些困难主要有：

（1）获取数据问题：

在不同的视角对同一物体也会得到不同的图像，物体所处的场景的背景以及物体会被遮挡，背景杂物一直是影响物体识别性能的重要因素，场景中的诸多因素，如光源、表面颜色、摄像机等也会影响到图像的像素灰度，要确定各种因素对像素灰度的作用大小是很困难的，这些使得图像本身在很多时候并不能提供足够的信息来恢复景物。

（2）知识导引问题：

同样的图像在不同的知识导引下，会产生不同的识别结果，知识库的建立不仅要使用物体的自身知识，如颜色、纹理、形状等，也需要物体间关系的知识，知识库的有效性与准备性直接影响了物体识别的准确性。

（3）信息载体问题：

物体本身是一个高纬信息的载体，但是图像中的物体只是物体的一个二维呈现，并且在人类目前对自己如何识别物体尚未了解清楚，也就无法给物体识别的研究提供直接的指导。目前人们所建立的各种视觉系统绝大多数是只适用于某一特定环境或应用场合的专用系统，而要建立一个可与人的视觉系统相比的通用视觉系统是非常困难的。

（4）前景展望：

虽然存在着很多困难，但是随着人类对自己视觉的逐步了解，一个通用的物体识别技术终会被研究成功。人们一直致力于开发各种智能工具辅助人们的生产生活，比如机器人的研制，但是要想使得机器人可以像人一样运动，辅助人们的工作生活，那么前提是机器人必须具备类似于人的视觉系统，能够识别物体以及场景，真正的智能工具应该要具备“视觉”。物体识别技术的成功将会极大改变提高智能工具的能力，成为计算机技术里程碑式的一项研究。

三、物体识别的市场

1）全球物体识别市场规模

根据KBV Research发布的“全球图像识别市场（2016-2022）”报告，2022年，全球物体识别（商品识别、车辆识别等）将达到94.5亿美元，年复合平均增长率在20.3%左右。

2）中国物体识别市场

根据重磅数据发布的“中国图像识别市场（2016-2022）”报告，2022年中国图像识别市场预计将达到11.6亿美元左右。年复合平均增长率在18.1%左右。占全球市场平均为11.6%左右。

3）国内外主要玩家分布

从表中可以看出，物体识别应用最多的就是在商品识别领域。

（1）码隆科技：

2014年，两名从微软离职的中美好搭档黄鼎隆、码特获得￥1200万的天使轮投资后创立了码隆科技；其主营业务是利用图像识别技术打造Product AI平台，针对客户需求建立以图搜图引擎，公司主营业务有智能搜索同款衣服，服装风格分析，家具识别、面料识别、药品识别等。与国内的穿衣助手（时尚穿搭）、卷皮网（电商平台）、优料宝（纺织面料）、视觉中国（图片版权平台）等公司有长期的合作。

2017年，码隆科技获得软银中国领投的2.2亿元B轮融资，预备将此次融资用于人工智能人才储备，增加研发投入，并进军拓展海外市场。码隆科技会继续专注人工智能商品识别领域技术落地，持续深挖人工智能与传统行业的深度结合点，并进一步加快国际化步伐。

（2）Yi+：

"Yi+"（北京陌上花科技有限公司）由美女张默创立于2014年，为企业提供视觉内容智能化和商业化解决方案。致力于"挖掘视觉信息的价值"。公司旗下品牌Yi+是人工智能计算机视觉引擎，衣+是时尚商品搜索引擎。

目前，Yi+以视频、图像中的人脸、物体、场景检测、识别、搜索、推荐技术的积累，布局在视频媒体、智能电视、智能相机、广播电视系统等领域，提供"电视+AI"、"相机+AI"及"营销+AI"的解决方案。已通过基于视觉识别技术的数据结构化产品服务4亿用户，帮助媒体内容方实现智能分析、内容互动和场景营销。团队成员来自于斯坦福、帝国理工、耶鲁、新加坡国大、南洋理工、清华、北大、中科院等名校及谷歌、微软、IBM、英特尔、阿里巴巴、腾讯、百度、华为等名企。2017年公司获得了亿元B轮投资。

（3）图普科技：

图普科技是一家基于深度学习技术解读图片和视频内容的公司。在2014年初创建并开放了提供各类图像识别能力的云服务平台，目前图普云平台涵盖黄暴识别、人脸识别、证件识别、场景识别、图像风格化等数十种图像识别接口，日均图像接口调用数亿次，累计处理超过1000亿图像。凭借稳定靠谱的服务和超越用户期待的产品，赢得了包括映客、秒拍、今日头条、唱吧、酷狗、花椒直播等数百家互联网企业和政企机构的稳定合作，是较早将人工智能成功商业化落地的企业，在人工智能领域独树一帜。

其中在物体识别领域的业务有自然场景识别、多物体检测、服装属性识别（自动检测和识别图片、视频中的服饰，准确识别服饰品类、风格，美观度等特征）、汽车识别（可识别10种细分车型，上百种车标品牌，12种颜色）等。

4）商业模式

四、行业应用

1）电商行业

（1）市场规模

随着电子商务的蓬勃发展，基于物体图像识别技术的以图搜图正发挥重大作用，以移动端为例，其中适合图像搜索的图片为20 %，假设 0.5%人次成功转移，1% 平均购买转化率，平均购物单价为20 0元，如，按平均10%的佣金计算，那么一年产业规模也超过220亿元。加上其他收入，比如：广告、手机搜索等，总体市场规模不低于600亿元。随着移动电子商务日益兴起，图形图像搜索已能为客户带来全新的用户体验。在购物领域，非常典型的就是服装服饰等非标类产品，占到整个电子商务的55%市场份额。

（2）图片检索原理

1、目录式图像检索

目录式检索是将图片进行分类，用户按照分类结构逐渐细化查询范围。目录式检索方式经常需要人工来进行大部分的分类工作，因此效率较低。现在仍有大部分的图像搜索引擎结合关键字搜索保留了这一检索途径，但类目也通常限于大众用途的图片，这些类目下的图片主要源自专题网站，如壁纸就多来源于专门的壁纸网站。

2、关键词图像检索

关键词图像检索原理是基于图像外部信息的检索，这种方式是根据图像的文件名、路径名、链路、ALT 标签及与图像在同一页面的文本信息等外部信息进行检索，实质上是将图像检索转化为文本检索，这是目前搜索引擎普遍采用的方法。这种检索方式最显著的优点是检索速度快，很好地利用了成熟的基于文本的检索技术。不足在于过于依赖网页标题与文件名的准确性。以上两种检索方式可归结为基于文本的图像检索，它们往往只分析图像的外部信息即文本信息，而没有考虑图像本身的视觉信息。随着图像数量的大量增长，语言表达的限制性及语种的复杂性，这种只是基于文本的图像检索技术已经不能满足用户的需求，于是有了基于图像内容检索技术的发展。

3、视觉图像检索

基于内容的图像检索技术主要就是图像视觉检索，将图像自身的视觉内容特征作为其索引，如颜色、纹理、形状以及空间关系等底层视觉特征，通过对这些图像特征的比较来实现检索。这是一种基于图像本身特征层次的自动匹配，融合了图像理解、模式识别和计算机视觉等理论，特别适用于检索目标明确的查询。

视觉图像检索原理在实际应用中有两种检索方式：层次性和实例式。层次性图像搜索是将关键字检索与简单的视觉图像检索相结合，不再是“关键词 + 关键词 + ”的过程，而是将关键词与某些主要的视觉特征由用户自由组合。实例式图像检索在较新的专业图像搜索引擎中应用较多，该方法是提供一张图片实例或者由用户绘制一个大概的形状，系统自主综合可视特征寻找相似图片。不过，有时候需要用户提供图片实例会使系统变得很不友好，因此通常有实例式图像检索功能的搜索引擎也包含层次性图像搜索功能。

（3）商品识别中的图像搜索系统结构

（4）具体应用

1、商品分类：

在电商平台中，商品的种类繁多，有衣服、鞋、帽子、围巾等。其中衣服的分类品种复杂多样按性别分有男装、女装；按季节分有春、夏、秋、冬季的服装；按年龄来分有童装、青少年装、中年装、老年装；按群体来分有学生装、白领装、孕妇装等；一件衣服可能同时有好几个标签，可能是男装、春装、中年装、白领装，因此单凭人眼来分十分吃力。因此基于图像识别技术可以将衣服的款式进行分类，对同类衣服进行标签的标注。

2、价格比对

以淘宝为例，消费者在通过关键字“风衣”进行检索，得到几万个不同的结果，如图一所示的商品就有上百个，细心的消费者可能会一页一页的翻找比对这些商品，但是效率非常低，也不容易察觉到价格间的差异。消费者越来越迫切地希望能基于描述商品的图像进行检索，通过商品可视特征的提取和匹配，对数以百万计的商品图片实现图片到图片的智能化检索。

3、款式识别

帮助商家和用户将每件衣服打上不同的款式标签，如吊带衫、打底裤、直筒裤、Polo衫、短袖等。

4、时尚穿搭

当用户看到街上的某个时尚穿搭时，可拍照上传搜索同款的衣服，系统提供不同的穿搭建议，给予用户随时随地的穿搭体验。

5、真伪识别

可通过对商品的材质、标签识别，帮助用户来识别正品和高仿，防止用户受骗，以至于电商平台的信誉受损。

2）新零售行业

（1）商品的分类监测

通过识别商品的包装，判断商品的属性。比如消费者进店后拿了又放到其他位置打乱商品原来的的顺序与管理。可在后台链接语音系统，当商品发生错乱时，基于用户语音提醒，方便商品的管理，减少了商超的分拣员；当商品的货架缺货时，可自动提醒后台增补货源以对货仓进行清查；以及对该类商品的统计分析，每周每月的消费量等。

（2）食品安全的监控与管理

通过对零售食品包装袋的识别，判断食品的生产日期、保质期是否满足食用要求等。

（3）用户的精准画像

结合人脸识别，通过追踪用户的购买行为和商品的购买量来为用户画像，比如发现用户在购买牙膏的之后会去顺手在买一个牙刷，再买了洗面奶之后会在买一瓶乳液等。帮助商家更好的了解用户的需求，以及对商品摆放位置对用户行为的影响等。

（4）完美连接线上线下：

识别系统获得的用户偏好还能反哺线上，将所得数据通过线上反馈给厂商，助力于厂商更全面地了解消费者需求，进而精准地研发产品，设计营销策略。这些都是完美实现新零售“打通线上线下”内在要求的极佳方式。

3）汽车行业

（1）车型识别

1、车型识别研究的主要方向：

1）基于神经网络的方向

2）基于小波变换的车型识别方向

3）利用地震动信号进行分析处理判断车型

2、车辆的检测方法：

1）基于背景差分的方法

2）基于帧间差分的方法

3）基于光流法的方法

3、车型特征提取：图像目标识别特征的提取可采用多种方法，主要方法有傅立叶描述子、矩特征、变换域特征、边缘轮廓特征、角点特征等。

4、车型识别技术：

1）基于模板匹配的识别方法

2）基于统计模式的识别方法

3）基于神经网络的识别方法

4）基于仿生模式（拓扑模式）的识别方法

5）基于支持向量机的识别方法

（2）车牌识别（摘自百度，可自查原版）

1、简介：

车牌识别技术要求能够将运动中的汽车牌照从复杂背景中提取并识别出来，通过车牌提取、图像预处理、特征提取、车牌字符识别等技术，识别车辆牌号、颜色等信息。

2、技术原理：

1）基本步骤：

A. 牌照定位，定位图片中的牌照位置；

B. 牌照字符分割，把牌照中的字符分割出来；

C. 牌照字符识别，把分割好的字符进行识别，最终组成牌照号码。

2）识别流程：利用车辆的动态视频或静态图像进行牌照号码、牌照颜色自动识别。

3、应用方式：

1）监测报警：

对于纳入“黑名单”的车辆，例如：被通缉或挂失的车辆、欠交费车辆、未年检车辆、肇事逃逸及违章车辆等，只需将其车牌号码输入到应用系统中，车牌识别设备安装于指定的路口、卡口或由执法人员随时携带按需要放置，系统将识读所有通过车辆的牌照号码并与系统中的“黑名单”比对，一旦发现指定车辆立刻发出报警信息。

2）超速违章处罚：

车牌识别技术结合测速设备可以用于车辆超速违章处罚，一般用于高速公路。具体应用是：在路上设置测速监测点，抓拍超速的车辆并识别车牌号码，将违章车辆的牌照号码及图片发往各出口；在各出口设置处罚点，用车牌识别设备识别通过车辆并将号码与已经收到的超速车辆的号码比对，一旦号码相同即启动警示设备通知执法人员处理。与传统的超速监测方式相比，这种应用可以节省警力，降低执法人员的工作强度，而且安全、高效、隐蔽，司机需时刻提醒自己不能超速，极大地减少了因超速引发的事故。

3）车辆出入管理：

将车牌识别设备安装于出入口，记录车辆的牌照号码、出入时间，并与自动门、栏杆机的控制设备结合，实现车辆的自动管理。应用于停车场可以实现自动计时收费，也可以自动计算可用车位数量并给出提示，实现停车收费自动管理节省人力、提高效率。应用于智能小区可以自动判别驶入车辆是否属于本小区，对非内部车辆实现自动计时收费。在一些单位这种应用还可以同车辆调度系统相结合，自动地、客观地记录本单位车辆的出车情况，车牌识别管理系统采用了车牌识别技术，达到不停车、免取卡，有效提高车辆出入通行效率。

4）自动放行：

将指定的牌照信息输入系统，系统自动地识读经过车辆的牌照并查询内部数据库。对于需要自动放行的车辆系统驱动电子门或栏杆机让其通过，对于其它车辆系统会给出警示，由值勤人员处理。可用于特殊单位（如军事管理区、保密单位、重点保护单位等）、路桥收费卡口、高级住宅区等。

5）高速公路收费管理：

在高速路的各个出入口安装车牌识别设备，车辆驶入时识别车辆牌照将入口资料存入收费系统，车辆到达出口时再次识别其牌照并根据牌照信息调用入口资料，结合出入口资料实现收费管理。这种应用可以实现自动计费并可防止作弊，避免了应收款的流失。

6）计算车辆旅行时间：

在交通管理系统中可以将车辆在某条道路的平均旅行时间作为判断该道路拥堵状况的一个参数。安装车牌识别设备于道路的起止点，识读所有通过车辆并将牌照号码传回交通指挥中心，指挥中心的管理系统根据这些结果就可计算出车辆平均旅行时间。

7）牌照号码自动登记：

交通监管部门每天都要处理大量的违章车辆图片，一般由人工辨识车牌号码再输入管理系统，这种方式工作量大、容易疲劳误判。采用自动识别可以减少工作强度能够大幅度提高处理速度和效率。这种功能可用于电子警察系统、道路监控系统等。

（3）车辆识别的难点

1、受人自身对对象识别过程的只是限制，对自然界的认识不足，缺乏先进的科学知识；

2、车辆繁多但差别不大，没有明显的区别特征；

3、受具体应用环境的影响太大，各类检测算法要求的条件太苛刻，摄像机的位置和角度要求高；

4、受视觉变化的影响大，从不同角度所摄的汽车特征差别大；

5、受自然环境影响太大特别是光照影响，严重的光照反射使得车辆轮廓线不分明，颜色偏离、变化太大，难以辨认；

6、汽车的外形更新太快，特征变化太快，使得算法适应性较差；

7、汽车的管理规则变化太快，使得智能交通中的应用系统算法修改频繁。

8、复杂背景多车辆的特征的同时提取。复杂背景多车辆的检测，较容易实现，但是多车辆的特征同时提取比较困难，实现多车辆特征的同时提取，对以后的分类识别、跟踪等都有很大的帮助；

9、汽车遮挡情况的研究。在交通口，因车速行驶速度相对较慢，汽车遮挡情况虽然出现的比较少，但为乐万山系统，增加系统的鲁棒性，这种情况下的汽车识别有待于进一步的研究；

10、运动车辆的三维建模。运动车辆是一个三维物体，因而获取运动车辆的三维信息并利用它进行识别将是车型识别发展的最终目标和解决途径。随着信息获取技术手段的不断改进，这一途径必将得到应有的发展；

11、非正常天气条件下车型的识别。车型识别的相关资料显示，天气、光线等对车型识别准确性的影响不大，如何降低天气条件的影响，增加系统的自适应性，也是汽车分类识别有待解决的关键问题；

12、支持向量机还处在继续发展阶段，很多方面还不完善，现有的算法都是采用多个支持向量机分类器进行组合，从而实现多值分类目的。但目前多分类算法不是特别理想。

4）医药行业

（1）药品标签处理

1、图像采集与预处理：

1）药瓶图像采集：

图像采集的原理是通过光学感光元器件将目标物的光线转换成电信号，然后对电信号做采样和量化即得到数字图像。

2）图像预处理：

图像传感器采集到的数字图像难免会夹杂各类噪声和畸变信号，无法直接应用于视觉识别。主要包括图像灰度化、图像平滑和图像增强。

2、药瓶图像提取：

1）药瓶边缘检测：

边缘检测的实质是利用相关算法提取图像中目标物与背景间灰度变化明显的分界线，而药瓶边缘检测是实现药瓶图像分割的先决条件。

2）药瓶图像分割：

经过Canny算法边缘检测后的图像是二值图像，为提取出药瓶的有效分割边界，考虑到药瓶两侧具有竖直边缘特性，因此常用竖直边界分割检测的方法，根据检测出的药瓶上下左右边界，完成药瓶图像分割

3、药瓶图像矫正：

西林瓶表面贴附的药品标签呈现圆柱表面特征，成像后标签两侧区域会出现非线性挤压变形，因此为了能正确识别药品国药准字编号，有必要对这部分畸形图像做平面化矫正，恢复字符的正确形态，并拉开字符间距。

1）图像矫正算法：

药瓶图像矫正的根本目的是把圆柱面药瓶图像矫正为柱面图案平面展开时的成像效果。

2）矫正实验：验证矫正算法后的有效性。

（2）药品标签字符识别

1、药品标签识别原理（原理图如下）：

2、药品标签识别流程：

1）字符预处理：字符切分、字符大小归一化、字符笔画宽度归一化

2）候选字符提取：选取统计特征、创建字符模板、分类器设计

3）药品标签字符识别：基于 BP 神经网络的字符识别、基于图像异或增强算法的字符识别

3、应用：

1）医院和药店药品分类与管理：

目前医院和药店的药品种类繁多，利用药品识别技术可以快速的帮助医疗人员对药品的分类管理。

2）药品生产商的流程管理：

通过对药品生产线上药品的标签识别，帮助厂商快速发现药品的标签捡漏、质量检测等。

3）违禁药物的管理：

对实验室的一些危险化学品的监测与管理。

4）帮助用户快速了解药品：

大多用户都是医生开药后，并无阅读说明书的习惯或者说明书不够详细，随着智能终端的普及，用户可以使用移动终端拍照搜索药品的详细资料快速帮助用户了解一款药品的用途以及注意事项等。

物体识别技术长篇研究
一、物体识别的发展史 1）物体识别的理解物体识别是计算机视觉领域中的一项基础研究，它的任务是识别出图像中有什么物...
初识人脸识别
一、人脸识别综述这里找到两篇较全面的综述文章：（1）基于深度学习的人脸识别技术综述（2）人脸识别长篇研究（...
人脸识别长篇研究
本篇文章十分的长，大概有2万7千字左右。一、发展史 1、人脸识别的理解：人脸识别(Face Recogniti...
20180315周四～积累技术
今晚看物体识别，模式识别。可用的技术，使用的知识表示，描述和特征，谓词逻辑truefalseallhasandor...
随笔
射频识别技术可以读取每个物体的“身份证”，传感器技术能将射频识别技术采集到的“身份信息”转化为电信号，嵌入式技术则...
科研管理工作小结。
模式识别。人工智能，计算机研究。模式识别可用于文字和语音识别。语音识别技术。生物认证技术数字水印技术。
[Mediapipe]bazel编译与aar文件生成
为何我突然钟情于mediapipe？因为mediapipe综合了很多新进技术的方向，实时人脸识别，实时物体识别，实...
2020年指纹识别行业市场规模如何？
指纹识别是将识别对象的指纹进行分类比对从而进行判别。指纹识别技术作为生物体特征识别技术之一在新世纪逐渐成熟，进入了...
语音识别长篇研究（五）
承接上文放飞人夜：语音识别长篇研究（四）zhuanlan.zhihu.com 十、语音识别公司盘点 1、国外语...
语音识别长篇研究（三）
承接上文语音识别长篇研究（二）五、深度学习进行语音识别 1、机器翻译的工作流程 >need-to-insert...