一篇新的论文GlobalTrack:A Simple and Strong Baseline for Long term Tracking提出了一种新的基于全局搜索思想的视频长期目标跟踪方法GlobalTrack,它使用了一种极其简单的体系结构。在线学习,无位置或尺度变化的惩罚,无尺度平滑和轨迹改善,因此不存在累积误差”,特别适合长期目标跟踪。
团队来自国内:
背景
长期跟踪器的一项关键功能是在很大的区域(通常是整个图像)中搜索目标,以应对可能的目标缺失或跟踪失败。但是,当前缺少用于全局实例搜索的强大基准。在这项工作中,作者旨在弥合这一差距,建议使用GlobalTrack,这是一个基于全局实例搜索的纯跟踪器,它不假设目标位置和尺度的时间一致性。GlobalTrack是基于两阶段对象检测器开发的,它能够以单个查询为指导对任意实例执行全图像和多尺度搜索。
作者进一步提出了交叉查询损失,以提高我们针对干扰因素的方法的鲁棒性。无需在线学习,无需对位置或尺度变化进行任何惩罚,无需尺度平滑,也无需进行轨迹细化,基于纯粹全局实例搜索的跟踪器在四个大规模跟踪基准(即LaSOT上的AUC为52.1%)上可实现相当甚至更好的性能与通常需要复杂的后处理的最新方法相比,TLP的成功率为63.8%,OxUvA的成功率为60.3%,TrackingNet的成功率为75.4%。更重要的是,作者的跟踪器可以无累积错误地运行,也就是说,任何类型的临时跟踪失败都不会影响其在未来帧中的性能,因此非常适合进行长期跟踪。
图1:作者的方法与最新跟踪器的比较。 ATOM(Danelljan等人,2019),SiamRPN ++(Li等人,2019)和DaSiam LT(Zhu等人,2018)在时间一致性假设下工作,即目标状态平稳变化。 但是,如图所示,这种假设不一定成立。 在突然运动和暂时没有目标的情况下,这些跟踪器无法长时间定位目标。我们的方法GlobalTrack是一个纯粹的基于全局实例搜索的跟踪器,可以成功应对这些挑战并提供可靠的跟踪结果。
方法
作者使用的算法网络架构:
图2:GlobalTrack的总体架构。 该体系结构包含两个子模块:用于生成特定于查询的建议的查询指导RPN(QGRPN),以及用于区分建议并产生最终预测的查询指导RCNN(QG RCNN)。 在QG-RPN和QG-RCNN的特征调制中,我们对主干和ROI输出中查询和搜索图像特征之间的相关性进行编码,以指导检测器定位查询特定实例。 在跟踪期间,我们将第一帧用作查询,并简单地将一帧中的top-1预测作为跟踪结果。
作者将目标跟踪完全看作是一个全局实例搜索问题,即在给定第一帧的目标帧后,每个后续帧的跟踪过程是相同的。
其最大的创新在于查询引导的RPN和查询引导的RCNN模块。
查询图像和搜索图像通过骨干网后,进入查询引导的RPN,该RPN是以更快的R-CNN为模型的。它用于生成目标候选帧。区别在于,它是一种网络结构,根据特定的查询图生成特定的目标候选帧。它被称为“查询引导的RPN”。具体的方法是当特征被协调时,将ROI特征与搜索地图特征相关联。
查询引导的RCNN对候选目标进行更精细的分类和定位。它还使用了一个功能调节模块。跟踪时,直接使用置信度最高的候选对象的包围盒作为最终结果。
图3:一个长期跟踪示例,其中目标经历了一段时间(约400帧)的缺失。 在暂时缺席之后,所有比较的方法都无法重新定位目标,而GlobalTrack在重新出现时立即将其重新定位,并且获得了更高的平均IoU分数。 该示例显示了GlobalTrack的优势–由于它不进行位置假设并且进行全局搜索,因此其在框架中的性能不受先前故障的影响。
主流数据集上其他算法的比较
图6:LaSOT测试集上的GlobalTrack和最先进的跟踪器的成功图。 与以前的最佳跟踪器ATOM相比,我们的方法在绝对值上分别达到2.2%和0.7%的绝对分数。 此外,GlobalTrack还远远超过了最新的长期追踪器SPLT和DaSiam LT。
表4:长期跟踪基准TLP在成功率(SR,重叠阈值0.5以下),成功分数和精度分数方面的最新比较
表5:在TrackingNet的测试集上,在精度,标准化精度和成功率(AUC)方面的最新比较。
表6:在OxUvA测试集上的最大几何平均值(MaxGM),真实正比率(TPR)和真实负比率(TNR)的最新比较。
表7:关于OxUvA开发集的最新技术比较,包括最大几何平均数(MaxGM),真实正比率(TPR)和真实负比率(TNR)。
从对比结果来看,GlobalTrack在不使用任何后期处理等步骤的情况下,获得了SOTA结果,值得一提的是,笔者认为,视频在评价数据集中的长度越长,GlobalTrack的性能越好!
结论与未来工作
在这项工作中,我们提出了一个基于全局实例搜索的纯跟踪器,该跟踪器对时间一致性没有任何假设或约束。 因此,它在帧中的性能不受先前跟踪失败的影响,这使其成为长期跟踪的理想选择。 该方法是基于两级对象检测器开发的,它由两个组件组成:用于生成特定查询实例候选的查询引导区域提议网络,以及用于对这些候选进行分类并生成的查询引导区域卷积神经网络。 最终的预测。 在四个大型跟踪基准上进行的实验证明了该方法的强大性能。
论文地址或源码下载地址:关注“图像算法”微信公众号 回复"GlobalTrack"
网友评论