1.Max-DeepLab
https://arxiv.org/abs/2012.00759 http://www.liangchiehchen.com/
extending Axial-DeepLab with a Mask Xformer. MaX-DeepLab directly predicts class-labeled masks for panoptic segmentation and sets new state-of-the-art 51.3% PQ on COCO test-dev set.
摘要:我们提出了MaX DeepLab,第一个用于全景分割的端到端模型。我们的方法简化了目前严重依赖于代理子任务和手工设计的组件的流水线,如盒检测、非最大值抑制、物-物融合等,虽然这些子任务由区域专家来处理,但无法全面解决目标任务。相比之下,我们的MaX DeepLab直接用掩模变换器来预测类标记的掩模,并通过二部匹配以全景质量为灵感的损失进行训练。我们的掩模转换器采用了双路径结构,除了CNN路径外,还引入了全局内存路径,允许与任何CNN层直接通信。因此,在具有挑战性的COCO数据集上,MaX DeepLab在无盒状态下显示了7.1%的PQ增益,首次缩小了基于盒方法和无盒方法之间的差距。与DETR相比,MaX DeepLab的一个小变种提高了3.0%的PQ,参数和M-Adds相似。此外,MaX DeepLab在不增加测试时间的情况下,在COCO测试开发集上实现了最新的51.3%PQ。
2.VisTR
https://arxiv.org/abs/2011.14503
End-to end video instance segmentation with transformers
视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。最近的方法通常开发复杂的管道来处理这个任务。在这里,我们提出了一个新的基于变压器的视频实例分割框架VisTR,它将VIS任务看作一个直接的端到端并行序列解码/预测问题。给定由多个图像帧组成的视频片段作为输入,VisTR直接按顺序输出视频中每个实例的掩码序列。其核心是一种新的、有效的实例序列匹配和分割策略,它从整体上监督和分割实例。VisTR在相似性学习的同一视角下对实例进行分割和跟踪,从而大大简化了整个流程,与现有的方法有很大不同。VisTR在所有现有的VIS模型中实现了最高的速度,并且在YouTube-VIS数据集中使用单个模型的方法中获得了最好的结果。第一次,我们展示了一个更简单、更快速的基于变压器的视频实例分割框架,实现了具有竞争力的准确性。我们希望VisTR能够推动未来更多的视频理解任务的研究。
网友评论