一、单目标跟踪
1、基本流程与框架
视觉目标(单目标)跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。
输入初始化目标框,在下一帧中产生众多候选框(Motion Model),提取这些候选框的特征(Feature Extractor),然后对这些候选框评分(Observation Model),最后在这些评分中找一个得分最高的候选框作为预测的目标(Prediction A),或者对多个预测值进行融合(Ensemble)得到更优的预测目标。
根据如上的框架,我们可以把目标跟踪划分为5项主要的研究内容:
(1)运动模型(Motion Model):如何产生众多的候选样本。
常用方法:粒子滤波(Particle Filter)和滑动窗口(Sliding Window)。
(2)特征提取(Feature Extractor):利用何种特征表示目标。
常用的特征被分为两种类型:手工设计的特征(Hand-crafted feature)和深度特征(Deep feature)。常用的手工设计的特征有灰度特征(Gray),方向梯度直方图(HOG),哈尔特征(Haar-like),尺度不变特征(SIFT)等。
(3)观测模型(Observation Model):如何为众多候选样本进行评分。
观测模型可分为两类:生成式模型(Generative Model)和判别式模型(Discriminative Model)
判别类方法,也叫检测跟踪(tracking-by-detection)。CV中的经典套路图像特征+机器学习, 当前帧以目标区域为正样本,背景区域为负样本,机器学习方法训练分类器,下一帧用训练好的分类器找最优区域。
(4)模型更新(Model Update):如何更新观测模型使其适应目标的变化。
(5)集成方法(Ensemble Method):如何融合多个决策获得一个更优的决策结果。
2、面临的挑战
遮挡(Occlusion)是目标跟踪中最常见的挑战因素之一,遮挡又分为部分遮挡(Partial Occlusion)和完全遮挡(Full Occlusion)。
解决部分遮挡通常有两种思路:(1)利用检测机制判断目标是否被遮挡,从而决定是否更新模板,保证模板对遮挡的鲁棒性。(2)把目标分成多个块,利用没有被遮挡的块进行有效的跟踪。
对于目标被完全遮挡的情况,当前也并没有有效的方法能够完全解决。
其他的挑战性因素包括:形变(Deformation)、背景杂斑(Background Clutter)、尺度变换(Scale Variation)、光照(illumination),低分辨率(Low Resolution),运动模糊(Motion Blur),快速运动(Fast Motion),超出视野(Out of View),旋转(Rotation)等。
————————————————
1)上文主要内容为CSDN博主「Phoenix hui」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_36836622/article/details/85644377
2)计算机视觉中,目前有哪些经典的目标跟踪算法?https://www.zhihu.com/question/26493945
二、多目标跟踪
1、问题定义
一般提到“视觉目标跟踪”或“VOT”,往往指的是单目标跟踪。尽管看起来SOT(Single Object Tracking)和MOT(Multi Object Tracking)只是目标数量上的差异,但它们通用的方法实际上截然不同。从研究对象上讲,单目标跟踪算法一般是不限类别的,而多目标跟踪一般是仅针对特定类别的物体。从时长上讲,单目标跟踪更多地针对短时间的图像序列,而多目标跟踪一般要处理较长的视频,其中涉及各个目标的出现、遮挡和离开等情况。从实现思路上讲,单目标跟踪更关注如何对目标进行重定位,而常见的多目标跟踪方法往往更多地关注如何根据已检测到的目标进行匹配。
按照初始化方式,常见的多目标跟踪算法一般可分为基于检测的跟踪(Detection-Based Tracking)和无检测的跟踪(Detection-Free Tracking)。DBT要求由一个目标检测器首先将每帧图像中的目标检测出来,而DFT要求已知每个目标首次出现的位置,再对每个目标分别进行跟踪(这一点可以看作是在同一个视频中进行的多个单目标跟踪)。显然,前者的设定更接近实际应用场景,也是学界研究的主流。
详细请参考:https://www.sohu.com/a/330699110_651893
网友评论