以下内容摘录于
The Recent Research Advances of Object Tracking Algorithm Based on Deep Learning
Authors:OUYANG Gu,ZHONG Bi-neng,BAI Bing,LIU Xing,Wang Jing,DU Ji-xiang
- 目标跟踪
给定视频帧中第一帧的目标状态(位置,方向等),来对随后帧的目标状态进行估计。
获得目标的运动轨迹和运动参数,从而对后续的视频内容进行语义的理解如:目标识别、行为分析、场景理解等)提供可靠的数据基础。
单目标跟踪与多目标跟踪,单摄像机跟踪与多摄像机跟踪,固定相机跟踪与运动摄像机跟踪等
-
目标跟踪受到的干扰
目标自身的变化(非刚性物体形变、尺度变化、姿态变化等)
外部环境因素(遮挡、光照变化、背景混杂等) -
三个主要步骤:目标物体表观建模、搜索策略选取、模型更新。
目标表观建模
外观刻画(提取特征描述)+观测模型(计算各候选区的可信度)
目标的表观建模决定了跟踪模型是否能够有效的应对各种复杂的目标表观的变化,是跟踪系统中的核心技术。
特征描述能够抽象出目标的外观,经过一个映射过程,将原始图像像素空间映射到一个维度可分的特征空间。
鲁棒的特征描述应该具有以下性质:
(1)较强的泛化能力,能够应对各种遮挡、外观变化等不确定因素;
(2)较高的区分性,模型能够对背景和非目标物体保持较
好的判别性;
(3)较小的计算量,能够达到跟踪的实时要求。
一般来说,在提取完目标物体特征之后,目标表观建模
可分为生成式模型和判别式模型。
-
生成式模型
主要是借助模型匹配思想,着重于对目标本身的描述,提取目标特征之后通过搜索候选区域最小化重构误差,也就是搜索最接近目标的候选区域作为目标对象。
在上一帧目标位置附近,依据某种先验分布检测出候选目标,随后对目标区域进行特征描述,再找出重构误差最小的候选区域作为当前帧目标的位置。
这类算法很大程度上依赖目标物体历史状态的特征提取,来完善描述当前帧目标物体的能力,但是没有充分利用目标周边的上下文信息,导致判别性不够,在背景干扰、遮挡等复杂场景下是不够鲁棒的。 -
判别式模型
二分类的问题,通过训练一个在线分类器,从不断变化的局部运动背景中区分出目标(前景)与背景。
主要是训练一个二值
分类器,从检测到的大量候选样本中区分前景(目标)与背
景,将打分最高的候选样本作为目标样本,从而获得目标位
置区域。
判别式方式因为能显著区分背景与目标信息,对复杂场景表现更为鲁棒。但是如果训练出来的分类器判别性不够,模型不稳定,会累积跟踪误差导致发生模型漂移。判别式模型也没有充分利用历史帧目标状
态在时间上的关联性,致使跟踪失败后由于跟踪算法随着模型的更新累积分类误差,当目标再次回到视野时跟踪器无法找回目标。 -
在表观建模中引入深度学习
传统的目标表观建模方法都是在提取目标物体的浅层特征上构建,如 HOG 特征,SIFT 特征,颜色特征,局部二值特征等,这些人工设计的特征只适用于某些特定场景,在复杂场景中表现的并不尽如人意,致使构建的跟踪系统很难应对现实跟踪场景的需求,容易导致跟踪目标漂移,甚至跟踪目标丢失。
所以引入深度学习来提取特征。
当然,深度学习应用到目标跟踪领域中时间不长,其中还有很多问题没有解决,比如:如果虽然在速度上有提升,但可能还不够实时;深度学习模型需要用大量训练样本来训练模型,而对于跟踪任务只有视频序列的第一帧能够拿来使用,所以存在训练样本的缺乏的问题等;
搜索策略
搜索策略也可以称为运动建模和搜索,主要作用是模型在上一帧目标位置附近搜索当前帧的所有可能的目标位置,并从这些候选的位置区域中估计出最优的目标位置。
好的搜索策略能够自适应目标运动规律,搜索出更优更少的候选区域,缩小搜索范围能够提高算法的效率,优质的候选区域间具有较少的重复率和较高的区分性,使得模型更加鲁棒且处理速度更快。
根据不同的搜索方式,搜索策略
可以分为以下几类:
1)基于滤波理论的搜索策略
通过散播离散的粒子集合的思想来近似目标运动的不规律性和不确定
性,最后加权粒子样本来估计目标当前分布状态。
2)基于滑动窗口的搜索策略
基于局部穷举思想,在感兴趣区域内密集搜索所有可能范围来选取
最优的目标状态。
3)基于梯度优化的搜索策略
如均值漂移算法
定义目标能量函数,采用梯度下降的策略来最小化能量函数进行目标的匹配和搜索,相对于滑动窗口搜索策略,它明显降低了计算强度,特别适用于对跟踪系统具有实时性要求的场景。
但是均值漂移算法容易陷入局部收敛,对于初始搜索位置比较敏感,同时当目标发生严重遮挡或目标运动速度较快时,往往导致收敛于背景而不是目标本身。
模型更新
模型更新决定了(目标表观)模型的更新策略和更新频率。
由于受目标自身和外部环境变化的影响,目标的外观一直处于动态变化中,是一个非静态信号,目标的表观模型必须通过自动更新来适应目标物体的外观变化,所以说跟踪问题也可以看成是一个边跟踪边学习的过程。
目前大部分模型使用的是在线更新策略,比较常用的方法是用最近新的模型代替旧的模型。但由于跟踪过程中,目标物体很容易发生遮挡、形变等现象,使得获取到的正负样本通常是不完整、不精确、带有一定噪声污染,经常情况下大部分正负样本具有二义性,导致模型在更新过程中逐渐累积误差,使得最新的表观模型与实际目标表观发生很大偏差,从而导致“漂移”现象,这是跟踪领域中一直存在的问题。
目前主要的更新策略常用的有在每一帧中都进行更新、每隔一段时间间隔进行更新、用启发式规则指导更新即误差达到一定阈值进行模型更新等。
这些方法虽然能在短时间内和可控场景下能够达到良好的效果,但是针对长时间跟踪、实际动态复杂场景中还是不够鲁棒,模型如何选择最优的在线更新策略还有待深入研究。
深度网络
经前馈传播过程中将原始信号进行逐层特征变化,即变换特征空间,再经反向传播的梯度下降算法更新网络权重,通过这种自适应方式提取高度抽象的自适应特征,而且构建的网络规模在模型深度上也比传统的浅层分类器要深。
深度学习网络模型按照训练方式可分为两类:有监督模型和无监督模型。
有监督模型有:多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。
无监督模型有:深信度神经网络(DBN)、自动编码机(ADE)等。
依据各算法使用的主要深度网络框架和算法的显著特点将目前基于深度学习的跟踪算法分为以下四类:
-
1)基于在线迁移和特征属性分析的跟踪模型
对于目标跟踪任务来说,由于只能使用第一帧的带标签的图像帧,使得缺乏足够的样本来训练深度网络提取特征。
近些年来,研究者们发现通过迁移学习的方法,借助其他相近领域(如:目标检测、图像分类、图像识别等)的大型数据集来预训练网络然后迁移到跟踪任务上,能够达到了良好的效果。
离线预训练+在线微调
e.g.
在一个大型小尺度数据集
(图片大小为 32*32)上离线预训练模型,然后借助跟踪数
据集的第一帧带标注的样本来进行在线微调。
卷积神经网络(CNN)主要包括卷积层、池化层、全连接层三个关键层类型。其中卷积层能够很好的的保留图像像素邻域之间的联系和局部空间结构的特点,保证了图像的旋转不变性和平移不变性。池化层减少了特征图的维度,但保留了重要的特征信息,并扩展了下一层的感受野范围。
由于卷积网络分层结构的特点,从而我们可以充分利用不同层特征的属性来应用到跟踪过程中的不同场景。但是大部分迁移学习的方法还是从利用非跟踪数据集来训练,这与跟踪任务还是有一定差距,导致对于目标刻画的准确度上还有待进一步改善。另外,我们知道目标周边区域的时空上下文对于跟踪任务时非常重要的,大部分深度网络提取到自适应特征并没有考虑目标附近区域的时空上下文信息,导致学习到的特征判别性不够由于模型层数比较深,导致所要学习的参数空
间也较大,处理图像帧的速度就降低,如何优化参数空间,达到跟踪上的实时需求还有待进一步研究。 -
2)基于深度集成学习的跟踪模型
传统的集成学习的方法来直接训练深度模型或者结合深度
学习技术训练多个弱分类器动态整合(自适应加权组合的方式)成一个强分类器,然后对前景和背景进行分类。
这类跟踪模型具有很好的判别能力、稳定性,防止了模型的过拟合。如何自适应选择弱跟踪器的数量和和每个弱跟踪器的最优权重来减少模型的内存消耗从而构建最优的强跟踪器,是一个需要深入研究的问
题。 -
3)基于时空域信息的跟踪模型
跟踪问题毕竟是一个在时间序列序上的问题,而基于卷积神经网络的模型每次只能对当前帧的目标表观进行建模,并没有考虑到当前帧与历史帧之间的关联性。同时提取出来的深度特征往往随着网络层数的加深,特征变得高度抽象,丢失了目标自身的结构信息,并且仅关注于目标本身的局部空间区域,忽视了对目标周边区域的上下文关系进行建模,然而这些内部结构信息和周边区域的上下文信息对于提高模型的判别性具有很大的作用。循环神经网络(RNN)凭借具有处理历史信息,建模时间、空间上的强关联性能力开始受到研究人员的关注。 -
4)基于相似度对比与回归的跟踪模型
先前的深度模型需要在线更新过程以及较大的参数空间,虽然有着较高的鲁棒性但运行速度缓慢。
2016 年以来,出现了基于相似度对比的孪生网络(Siamese Network)模型来应用到跟踪任务当中,基于孪生网络的跟踪模型是训练一个完全端到端的模型,没有动态更新过程。
它的输入是一个样本对,分为示例样本和候选样本,通过离线训练模型来评估两个输入样本的的相似程度,决策层决定采用哪种匹配算法计算相似度,匹配程度最高的候选样本作为目标当前最优区域。
基于相似度对比与回归的跟踪模型主要是借助孪生网络的双通道输入的结构特点,用大量的样本对,学习一个匹配函数。
此类模型的关键主要在训练阶段,需要设计合理的带标注的数据对和损失函数,一旦模型训练好了,就是一个完全不需要更新,端到端的运行的模型,此类算法在速度上更有优势,但该类模型需要大量的视频跟踪样本对,对于训练阶段来说,设计合理的损失函数至关重要。同时该模型对于严重遮挡、移动距离过大,非相似目标物体的判别性还不够鲁棒。
-
深度技术在目标跟踪领域涉及的困难主要集中在以下几个方面:
(1)训练数据的缺失
(2)使用迁移学习的方法预训练模型需要大量时间消耗,同时这种离线学习得到广义特征缺乏对所跟踪目标的判别性。
(3)目标跟踪过程中用在线更新得到的新样本带有大量噪声,用这些带有噪声的样本训练网络,会使模型的稳定性下降,导致模型“漂移”问题。
(4)深度学习模型在线训练过程需要大量的时空和计算资源。
(5)目前大部分的深度模型还集中在对样本空间结构上的描述,缺乏对整个跟踪序列时间维度上的建模,很难应对目标物体表观分布
的复杂多样性和非静态性。
(6)跟踪算法在实时性和准确度上达到平衡依旧任重道远。 -
以后的研究方向可以从以下几个方面进行展开:
(1)首先,在目标的表观建模方面,以深度学习理论为基础,探索如何有效的结合迁移学习、回归方法、集成学习、以及混合深度网络模型来构建鲁棒的基于深度学习的目标表观建模。
(2)其次,在目标的运动建模和搜索方面,如何采用高效的搜索策略为在线训练深度模型提供量少质高的正负样本集合也是值得深入研究。
(3)另外,在模型更新方面,自适应学习出的目标部件模型具有良好的灵活性,将其与局部背景结合,对于处理遮挡、非刚性形变等问题具有优势,结合深度学习的方法提取表观特征,能够构建一个鲁棒的跟踪模型。
(4)最后,在算法的实时性要求方面,如何通过优化算法减少参数空间,同时训练完全端到端的网络模型来对算法进行提速也是很重要的研究方向。
网友评论