Omnivore

作者: Valar_Morghulis | 来源:发表于2022-03-11 16:27 被阅读0次

    Omnivore: A Single Model for Many Visual Modalities

    https://arxiv.org/abs/2201.08377

    之前的工作已经研究了不同的视觉模式,并开发了用于识别图像、视频和3D数据的独立架构。取而代之的是,在本文中,我们提出了一个单一的模型,该模型能够使用完全相同的模型参数对图像、视频和单视图3D数据进行分类。我们的Omnivore利用了基于Transformer的架构的灵活性,并在不同模式的分类任务上接受联合训练。Omnivore易于训练,使用现成的标准数据集,性能与同等大小的特定于模态的模型相当或更好。一个Omnivore在ImageNet上获得86.0%,在Kinetics上获得84.1%,在SUN RGB-D上获得67.1%。经过微调后,我们的模型在各种视觉任务上的表现优于之前的工作,并在各种模式下得到推广。Omnivore的共享视觉表示自然能够实现跨模态识别,而无需访问模态之间的对应关系。我们希望我们的结果能激励研究人员对视觉模式进行建模

    1.导言

    计算机视觉研究跨越了与我们对视觉世界的感知相关的多种模式,如图像、视频和深度。一般来说,我们单独研究每一种模式,并定制我们的计算机视觉模型,从它们的特性中学习最佳功能。虽然这些特定于形态的模型取得了令人印象深刻的性能,有时甚至在其特定任务上超过了人类,但它们不具备类似人类的视觉系统跨形态工作的灵活性。我们认为,实现真正的多用途视觉系统的第一步是构建跨模式无缝工作的模型,而不是针对每个模式进行过度优化。

    除了灵活性之外,这种模态不可知模型与传统的模态特定模型相比还有一些优势。首先,模态不可知模型可以执行跨模态泛化:它可以使用从一个模态学到的知识在其他模态中执行识别。例如,它可以在3D图像中识别南瓜,即使它只看过南瓜的标记视频。反过来,这使得现有的标记数据集可以更有效地使用:可以在具有不同输入模式的视觉数据集的联合上训练模型。其次,它节省了用于优化特定模态模型的研究和工程工作。例如,图像和视频模型遵循着类似的发展轨迹,从手工制作的描述符[45,53]到卷积网络[34,87],最后是视觉Transformer[5,21];然而,每一个都必须单独开发和调整。一个共同的架构将使任何视觉形态的用户都能随时获得科学进展。最后,一个在许多视觉模式下运行的模型自然是多模式的,并且可以在新的视觉传感器可用时轻松利用它们。例如,在机器人上运行的modality agnostic识别模型可以很容易地利用安装在该机器人上的新深度传感器。尽管有这些明显的优势,模态不可知模型很少被研究,与模态特定的对应模型相比,它们的性能令人失望。有很多原因可以解释这种情况,比如需要一个灵活的架构,有足够的能力从不同的模式中学习特定于模式的线索;并且有足够的计算能力同时在视频、图像和单视图3D上训练它。

    本文开发了一个模态不可知的视觉模型,该模型利用了视觉体系结构的最新进展[21,49]。我们开发的模型是“Omnivore性”的,因为它适用于三种不同的视觉模式:图像、视频和单视图3D。我们的Omnivore没有为每种视觉形态使用自定义架构。它使用相同的共享模型参数对所有三种模式进行识别。它的工作原理是将每个输入模态转换为时空patch的嵌入,这些patch由完全相同的Transformer处理[88],以产生输入的表示。我们在一系列标准的现成分类数据集上训练Omnivore,这些数据集具有不同的输入模式。与之前的工作[33,75]不同,我们的训练不使用不同输入模式之间的明确对应关系。

    我们的实验证明了我们的Omnivore的优势。令人惊讶的是,我们发现Omnivore的表达在视觉模式中具有很好的通用性(见图1),尽管Omnivore没有经过明确的训练来模拟跨模式的对应关系。由于不同模态的模型之间的参数共享,这些能力在没有明确的跨模态监督的情况下出现。在标准图像、视频和单视点3D基准点上,Omnivore以相同数量的参数与模态特定的视觉模型相匹配或更好地执行。相同的Omnivore在ImageNet-1K上获得85.6%的top-1精度,在Kinetics-400上获得83.4%的top-1精度,在SUN RGBD上获得67.4%的top-1精度。Omnivore强大的泛化能力也扩展到了迁移学习实验中。Omnivore在与IMANETET-1K上最近的大型Transformer相媲美的情况下,在行动识别基准(如EPC-KiCHNSE-100,某物-V2)和单视图3D分类和分割基准上设置了新的最新技术。我们相信,我们的工作为转向开发能够在任何视觉形态上运行的视觉模型提供了一个令人信服的论据。

    2.相关工作

    我们在ConvNet体系结构、Transformers、多模式学习和多任务学习方面的前期工作的基础上进行开发。ConvNet架构的愿景。ConvNet架构[26,46]在图像、视频和3D识别中的许多计算机视觉任务中都很流行。2D卷积是ConvNets中图像[34,44,75,80]的主要构造块,而3D卷积用于3D数据[18,32]或与2D卷积结合用于视频识别[13,86,87]。I3D[13]引入了一种将2D图像卷积“膨胀”为3D卷积的方法,该方法允许视频和3D数据的3D ConvNet通过预训练图像模型的初始化间接利用图像数据。由于视频和3D数据集相对较小,它们受益于膨胀的预训练图像网络。然而,尽管膨胀技术仅适用于模型微调,但Omnivore是在图像、视频和单视图3D数据上联合预训练的。

    视觉中的Transformer。

    最初为NLP任务提出的Transformer架构[88]已成功应用于图像[11,21,68,84,89,90]、视频[5,8,28,29,50,64]和3D数据[58,66,98]的计算机视觉。ViT[21]、Swin[49]和MViT[24]等模型在图像分类、检测和视频识别等基准任务上具有竞争力。例如,Swin[49,50]和MViT[24]要求在图像或视频识别任务中使用最小的更改。类似地,Perceiver[38]可以对图像、点云、音频和视频输入进行建模。然而,所有这些研究都为每种视觉形态训练了单独的模型。相反,我们在多个输入模态上同时训练单个模型,这使我们的模型具备跨模态泛化能力。

    多模式学习。

    我们的工作使用多种视觉模式来训练模型。多模态学习架构可能涉及为每种类型的输入模态训练单独的编码器。例如,一系列任务需要为图像和文本[15,30,41,55,57]、视频和音频[3,4,60,61,65,69]或视频和光流[75]训练单独的编码器。最近,Transformer被用于融合多种模式:Transformer被用于融合视觉和语言任务[2,17,37,40,47,54,79,82]以及视频和音频任务[62],视频和图像任务[7],甚至涉及视频、音频和文本的任务[1]中的功能。与我们的工作不同,大多数以前的工作假设所有输入模式都是对应的,并且同时可用,这就限制了它们只使用多模式数据集。在我们的工作中,我们在不同的视觉模式下训练单个模型,而不假设同时访问所有模式。这使我们能够利用标准的现成单模态视觉数据集,我们表明,使用单个共享编码器自然会导致跨模态泛化。

    多任务学习。

    我们的工作还与多任务学习的研究有关[14],该研究开发了模型,可以在同一输入上输出多个任务的预测[23,27,43,56,59,97]。当目标任务表现出很强的相似性时,这种多任务学习者的工作表现良好[59,95]。它们与Omnivore的不同之处在于,它们在单一输入模式下工作,但经过训练可以执行多个任务。相比之下,我们的模型经过训练,可以在各种输入模式上执行单个任务(即分类)。其他多任务学习者使用多模态输入[39],但他们对每个模态使用手工设计的模型组件。

    3.方法

    我们的目标是学习一个可以在三种主要视觉模式下操作的单一模型:图像、视频和singleview 3D。由于模型的输入模式有不同的大小和布局,视频有一个时间轴,单视图3D有一个额外的深度通道,这对模型的设计提出了挑战。为了克服这一挑战,我们采用Transformer[88]体系结构,因为自注意机制可以优雅地处理各种大小的输入。图2概述了我们的方法

    3.1. Omnivore

    我们通过嵌入将所有视觉模式转换为通用格式。然后,我们的模型使用一系列时空注意操作来构建不同视觉模式的统一表示。输入patch。我们将不同类型的视觉输入表示为4D张量X∈ rt×H×W×C,其中T是时间维度的大小,H和W是空间维度的大小,C是通道维度的大小。因此,RGB图像∈ R 1×H×W×3有T=1帧和C=3个通道,RGB视频V∈ RT×H×W×3有T>1帧,单视图3D图像为D∈ R 1×H×W×4具有T=1帧,具有三个RGB通道和一个深度通道。

    我们遵循[21,49,50]并将输入拆分为一组patch。我们在图2中说明了这个过程。具体来说,我们将视觉输入X转换为一组4D子张量X,大小为t×h×w×c。图像I被分割为一组大小为1×h×w×3的非重叠图像块。类似地,视频V被分割成一组形状为t×h×w×3的非重叠时空块。对于单视图3D图像D,图像(RGB)和深度(D)通道分别转换为大小分别为1×h×w×3和1×h×w×1的patch。

    模型架构。

    我们的模型f将生成的时空视觉patch映射为图像、视频和单视图3D的共享表示。我们设计的模型能够在视觉模式之间实现最大的参数共享。模型的输入层独立处理每个patchx,并使用线性层和LayerForm[6](线性+LN)将patch投影到嵌入e中。形状为t×h×w×c的每个patchx被转换为大小为d的嵌入。我们使用相同的层来嵌入所有三通道RGBpatch,即图像patch、视频patch和单视图3D图像前三通道的patch。我们将单帧patch的一侧归零,以确保所有patch具有相同的形状,t×h×w×3。我们使用单独的线性+LN层嵌入深度通道patch,并将其输出添加到相应RGBpatch的嵌入中。

    我们使用相同的模型(参数)来处理所有生成的嵌入。虽然Omnivore可以使用任何视觉Transformer架构[21,24]来处理patch嵌入,但鉴于其在图像和视频任务上的强大性能,我们使用Swin transformer架构[49]作为我们的基础模型。我们依赖于自注意[88]操作来跨patch嵌入进行时空建模,例如,与[49]类似,自注意涉及来自时空附近patch的patch嵌入。我们还使用两组相对位置编码:一组用于空间维度,另一组用于时间维度。

    3.2. 训练Omnivore

    Omnivoref为多种类型的视觉输入创建单个嵌入f(X)=Φ。我们使用一组分类任务来训练模型,该任务提供输入{(Xi,Yi)},带有视觉输入,席席,和标签,Yi。例如,我们在ImageNet-1K数据集(用于图像分类)、Kinetics-400数据集(用于动作识别)和SUN RGB-D数据集(用于单视图3D场景分类)上联合训练大多数Omnivore。

    这种方法类似于多任务学习[14]和跨模式对齐[15],但有重要区别。特别是,我们既不假设输入观测值是对齐的(即,我们不假设可以访问图像、视频和3D数据之间的对应关系),也不假设这些数据集共享相同的标签空间。为了实现这一点,我们在模型生成的最终表示Φ上使用特定于数据集的线性分类层。样本的训练损失仅基于对应于该样本源数据集的分类层的输出进行计算。

    损失和优化。

    我们使用minibatch SGD训练Omnivore,以最小化训练数据集上的交叉熵损失。我们试验了两种不同的小批量SGD构建策略。在我们的第一个策略中,我们分别从每个数据集(模式)构建小批量。该策略易于实现,但数据集之间的交替可能会导致训练不稳定。因此,我们试验了第二种策略,即构造混合所有数据集样本的小批量。我们在§4.3中评估了两种小批量施工策略。

    4.实验

    我们进行了一系列实验来评估Omnivore的有效性。具体而言,我们将Omnivore与特定于模态的对应模型以及各种识别任务的最新模型进行了比较。我们还删除了在Omnivore中做出的几个设计选择。预训练数据集。我们对来自ImageNet-1K数据集[73]的图像、来自Kinetics数据集[42]的视频以及来自SUN RGB-D数据集[76]的单视图3D图像进行Omnivore训练。我们在各自的验证集上测量模型的前1和前5分类精度。我们注意到这三个数据集在视觉概念上的重叠可以忽略不计:ImageNet-1K专注于以对象为中心的类,Kinetics-400专注于动作类,SUN RGB-D专注于室内场景类。

    图像。

    ImageNet-1K(IN1K)数据集∼1.2M训练和50K验证图像,包括1000个课程。

    视频。Kinetics-400(K400)数据集包括∼240K训练和20K验证视频剪辑,长度为10秒,标记为400个动作类之一。

    单视图3D。

    SUN RGB-D数据集∼5公里训练和∼5K val RGBD图像,包含19个场景类。在[72]之后,我们将深度图转换为视差图。

    实施细节。

    我们使用Swin transformer[49,50]架构作为Omnivore的主干,并为每个目标数据集附加线性头。在训练时,我们使用224×224的分辨率,并在ImageNet上使用标准图像增强[84]进行训练。对于Kinetics,我们在步幅2时采样32帧。SUN RGB-D的处理方式与ImageNet类似,但我们以0.5的概率随机丢弃RGB通道,以鼓励模型也使用深度通道进行识别。我们在附录A中提供了完整的实施细节。我们的模型使用AdamW[52]对500个epoch进行了优化,其中一个epoch包括ImageNet-1K和Kinetics各一个epoch,以及SUN RGB-D的10个epoch。

    迁移数据集和指标。

    我们评估了Omnivore在不同图像、视频和单视图3D任务的迁移学习实验中的表现;汇总见表1。我们在附录B中提供了有关实验装置的详细信息。

    图像。

    我们评估了iNaturalist-2018数据集[36]上的细粒度对象识别、Oxford IIIT Pets数据集[67]上的细粒度分类,以及Places-365数据集[100]上的场景分类。

    视频。

    我们使用Something-v2数据集,它特别强调动作识别的时态建模。我们还使用EPIC-Kitchens-100数据集,该数据集包含100小时未经编辑的以自我为中心的视频。每个片段都标有一个动词和一个名词,它们共同构成一个动作。我们的模型经过训练可以识别所有3806个动作,即数据集中的动词-名词对。我们忽略动词,以获得名词预测,反之亦然。

    单视图3D。

    我们使用NYU-v2数据集进行单视图3D场景分类和分割。我们遵循[33]中的场景分类设置和[10,33]中的分割设置。为了进行分割,我们遵循[49]并使用Supernet[91]头部和Swin主干。

    4.1. 与特定模态模型的比较

    我们将Omnivore与在特定视觉模式下训练的模型进行比较。我们在IN1K、K400和SUN数据集上从头开始联合训练Omnivore。我们的基线模式使用与SwinVor相同的特定模式;我们称它们为ImageSwin、VideoSwin和DepthSwin。除线性层外,这些模型的参数数量与Omnivore相同。按照标准实践[49,50],ImageSwin模型在IN1K上进行训练,而VideoSwin和DepthSwin模型则通过膨胀ImageSwin模型进行微调。我们试验了三种型号:即:。,Swin-T、Swin-S和Swin-B.1

    预训练的表演。

    在表2中,我们比较了预训练数据集上的Omnivore模式和特定模式模式。表中的结果显示,在不同的模型尺寸中,Omnivore的性能与特定于模态的对应模型相匹配或超过。这一观察结果支持了我们的假设,即可以学习跨视觉模式的单一视觉表征。Omnivore使用相同的训练数据、相同的模型参数和相同的模型容量学习与特定于模态的表示一样好的表示。这意味着,Omnivore提供了一种可行的替代方案,可以替代通常用于部署特定于模态的模型的pretrain-then-finetune范式:它可以使用三分之一的参数提供相同或更好的识别精度。

    从我们的结果中,我们还观察到,高容量模型从Omnivore性训练中受益更多。在IN1K和K400上,使用更大的Swin-B体系结构的Omnivore比其特定于模态的对应模型都有所改进,而最小的Swin-T模型则没有。

    图3详细分析了Omnivore在K400数据集上相对于VideoSwin基线(均使用Swin-B架构)的改进。在这里,VideoSwin在IN1K上进行了预训练,并在K400上进行了微调,而Omnivore在IN1K、K400和SUN RGB-D上进行了联合训练。这两个模型都使用了Swin-B体系结构。Omnivore尤其能提高对需要对人体部位进行推理的类别的识别,如手、手臂、头、嘴、头发等。我们推测这是因为图像的联合训练有助于Omnivore学习更好的部位空间结构模型。

    迁移学习性能。

    我们通过对各种下游任务进行微调,将Omnivore与特定于模态的模型进行比较。表3给出了这些实验的结果。我们观察到,在几乎所有下游任务中,Omnivore性迁移都比特定于模态的模型更好。特别是,Omnivore在视频识别任务上有显著的优势,尽管与基线相比,它在预训练没有得到任何额外的视频监控。我们重申,Omnivore与特定于形态的基线具有相同的模型容量。这一观察结果强调了多模式训练的一个关键好处:因为Omnivore在更多样化的训练数据上进行了联合预训练,所以它在分布外的概括效果更好。如前所述,表3还显示,高容量模型从Omnivore性训练中受益最大。

    4.2. 与最新技术的比较

    接下来,我们进行实验,将Omnivore与现有最先进的模型进行比较。在这些实验中,像许多最先进的特定于形态的方法一样,我们在预训练使用ImageNet-21K(IN21K)数据集。OmnivoreSwin-B和Swin-L模型是在IN21K、IN1K、K400和SUN上从头开始训练的,其中单个epoch由IN1K和K400各一个epoch、10个epoch的SUN和0.1个epoch的ImageNet-21K组成。表4比较了Omnivore与最先进模型在三个基准上的性能。Omnivore在使用或超过MODALILITY特定方法时执行,尽管使用不适合任何特定模态的模型架构。即使与具有相似参数数量的特定于模态的模型相比,Omnivore也与IN1K上的最新技术相匹配,并通过达到84.1%的准确率而优于K400上以前的最新技术,这是一个1%的增益,以前只有通过使用额外的大型视频数据集才能实现。这证明了在图像、视频和单视图3D基准中使用相同的Omnivore的强大性能。

    迁移学习性能。

    我们通过对下游任务进行微调,将Omnivore与特定于模态的模型进行比较。在表5中,我们报告了图像分类的结果。Omnivore在Places-365上的场景分类,以及在iNaturalist-2018和Oxford IIIT Pets上的细粒度分类方面都优于先前的技术状态。

    我们对Omnivore视频分类进行了微调,并在表6中报告了结果。在EPIC-Kitchens-100数据集上,OmnivoreSwin-B模型在动词、名词和动词-名词对(动作)分类中取得了绝对最佳的性能。类似地,在需要时态推理的SSv2数据集上,Omnivore的性能优于之前的所有工作。这表明Omnivore表示可以很好地迁移到时态推理任务中——Omnivore设置了一个新的最先进水平,同时优于专门用于这些视频任务的架构。

    最后,在表7中,我们报告了RGBD场景分类和分割的微调结果。虽然之前的工作依赖于专门的3D操作符[10]、融合技术[93]或深度编码方案[33],但Omnivore使用一种通用架构,并直接对视差进行操作。Omnivore在场景分类和分割任务上都取得了最先进的性能。

    4.3. 消融研究

    我们在表8中删除了一些Omnivore的关键设计选择。总之,结果表明,在不同的设计选择下,Omnivore的性能相对稳定。为了加快烧蚀的周转时间,我们对模型进行了300个epoch的训练。

    从头开始训练或微调。

    我们比较了在不同模式(第一行)上从头开始训练Omnivore和通过图像分类初始化模型,然后在所有模式(第二行)上进行微调。对于微调结果,我们使用预训练的ImageNet-21K模型初始化Omnivore(Swin-B),然后对IN1K、K400和SUN进行100个epoch的联合微调。从零开始训练的模型在图像和视频分类方面都表现得更好。

    数据比率。

    由于IN1K和K400数据集比SUN大得多,我们在训练Omnivore时复制SUN。虽然复制有帮助,但更高的复制因子会影响SUN上的模型性能(这暗示着过度拟合),而IN1K和K400上的性能不变。基于相同的逻辑,我们对IN21K数据集进行了欠采样,使其具有与IN1K相似的大小。增加IN21K的比例对IN1K没有影响,会降低K400的性能,并提高SUN的性能。因此,我们对最终模型使用0.1:1:1:10设置。

    批处理策略。

    我们评估了§3中描述的两种不同的分批策略,并观察到它们的性能相似。我们还发现,单独的批处理策略(在训练期间在数据集之间交替)不会导致训练期间的不稳定性。此外,由于它更容易实现,我们使用它来训练Omnivore。

    深度通道的patch嵌入模型。

    Omnivore在RGBD图像中使用单独的线性+LN层作为深度通道。我们将其与使用四通道卷积模型嵌入深度patch进行了比较,发现分离层在SUN上的性能更好。我们还观察到,使用分离层有助于Omnivore更好地迁移到下游RGBD任务。

    5.跨模态泛化

    与特定于模态的模型相比,Omnivore的一个关键优势是,它可以在视觉模态中进行推广。这种泛化自然出现,因为我们对所有模式都使用相同的模型。我们的模型既没有使用跨模式的相应数据进行训练,也没有任何跨模式一致性损失。

    跨图像和深度检索。

    我们使用Omnivore表示来检索给定RGB图像的深度图。为了创建深度图数据库,我们在ImageNet1K训练组上运行了单目深度预测模型[72]。我们注意到,Omnivore既没有在ImageNet-1K深度图上训练,也没有在预测深度上训练。我们使用ImageNet-1K val集(RGB)图像作为查询。图4显示了检索到的地图的五个示例。这些结果表明,Omnivore构建了良好的深度图表示,尽管它之前在训练期间没有观察到ImageNet-1K深度图。我们强调,这种跨模态泛化能力不是明确学习视觉模态之间对应关系的结果[33,75]。相反,它的出现是因为这些模式使用了几乎完全共享的编码器。

    基于不同模式的分类

    为了定量测量Omnivore在不同模式下的泛化性能,我们使用预测的深度图在ImageNet-1K数据集上进行了k-最近邻(k-NN,k=20)分类实验。我们从val集合上的RGB图像中提取Omnivore表示,并测量模型从训练集合中检索图像、RGBD图像和仅深度图像的能力。我们观察到,Omnivore产生了一个表示,允许成功的k-NN分类,这表明了其强大的泛化性能。令人惊讶的是,我们观察到,即使在检索深度图像时,也能获得较高的精度,这比RGB图像提供的有关对象类的信息要少。

    检索所有模式。

    我们进一步探讨了图像、视频和深度图检索实验中的Omnivore视觉表征。我们使用ImageNet-1K val集合中的RGB图像作为查询,并使用它们从ImageNet-1K(预测深度)和Kinetics-400中检索类似的深度图。图1显示了结果检索的示例。结果说明了Omnivore如何使用其共享的表示空间支持跨图像(RGB)、单视图3D(RGBD)和视频(RGBT)检索视觉概念。

    桥接基于帧和基于剪辑的视频模型。

    Omnivore的跨模态泛化能力也使其对待分类视频长度的变化更为鲁棒。我们在图5中演示了这一点,其中我们在推断时使用不同长度的剪辑对视频进行分类。该模型在步幅2时使用32帧进行训练,默认情况下,使用相同长度和步幅的4个剪辑在推断时覆盖整个10秒的视频。在这个实验中,我们将剪辑长度从1变为32,按比例增加剪辑的数量,以便在每种情况下仍然覆盖整个视频。结果表明,随着视频长度的减少,Omnivore的性能下降得更加优雅。值得注意的是,在剪辑长度为1帧(帧级推断)的情况下,Omnivore的表现比基线好18.5%。这表明,图像和视频的联合训练使模型能够有效地使用时间和空间线索。

    6.讨论和限制

    尽管Omnivore比传统的特定模态模型有了进步,但它有几个局限性。我们目前的Omnivore实现仅适用于单视图3D图像,并不能推广到其他3D表示,如体素、点云等。处理此类输入的简单方法可能是从此类输入渲染多个单视图3D图像,并对这些图像进行平均Omnivore预测,但这种方法无法有效利用多视图信息。另一个警告是深度输入不是尺度不变的;我们使用正常化来缓解这个问题[72]。此外,Omnivore只关注视觉模式,因此不使用音频等共现模式。Omnivore仅使用分类进行预训练,使用结构化预测任务(如分割)可能会产生更丰富的表示。我们将这些扩展留给未来的工作。

    道德考虑。

    我们的研究侧重于视觉识别训练模型的技术创新。从伦理角度来看,这些创新本身似乎是中立的。然而,适用于其他视觉识别模型的所有伦理考虑同样适用于Omnivore。任何像Omnivore这样的模型在实际部署之前,最好先仔细分析该模型的道德问题,包括但不限于:不同用户组之间的性能差异、可能对某些用户有害的关联,以及可能传播刻板印象的预测。

    A.预训练的实施细节

    我们对每个数据集使用批量为4096的AdamW进行训练,并在第一次和最后10%的训练中分别使用带有线性预热和冷却阶段的余弦学习率(LR)计划。我们训练了500个epoch,峰值LR为2·10−3和5·10的权重衰减−2.Swin-T、Swin-S和Swin-L使用的窗口大小为8×7×7,而Swin-B使用的窗口大小为16×7×7。使用随机深度对模型进行训练,Swin-T的下降率为0.1,Swin-S为0.2,Swin-B和Swin-L为0.3。我们使用指数移动平均(EMA)[71],衰减为10−4.报告训练期间的最佳结果,因为EMA结果在训练结束前达到峰值。

    对于IN1K和IN21K,我们使用与[84]相同的设置,使用RandAugment[19]、mixup[96]、CutMix[94]、标签平滑[81]和随机擦除[99],颜色抖动为0.4。对于SUN RGB-D,我们钳制并标准化视差通道,以0.5的概率丢弃RGB通道,并且在使用ImageNet-21K进行预训练时,我们也在线性头部之前应用0.5的脱落[78]。对于Kinetics-400,我们使用混音、剪切混音和标签平滑,在线性头之前使用0.5的衰减。

    B.迁移任务的详细信息

    B.1。图像分类

    我们对下游任务的所有模型进行了100个epoch的微调,并使用小批量SGD对模型进行了优化。我们使用半波余弦学习率[51],并将权重衰减设置为零。对于所有模型,包括特定于模型的模型,我们在[5e-3、1e-2、2e-2、4e-2、8e-2、1e-1、2e-1、3e-1、4e-1、5e-1、6e-1]和[0.1、0.3]范围内对最佳学习率进行网格搜索。我们使用[84]中的强增强进行微调。对于表3和表5中的评估,我们将图像调整为224px的最短边,并在224×224的中心裁剪上评估模型。对于表5中的更高分辨率(384px)评估,我们按照[49]将图像调整到384px的最短边,并在384×384的中心裁剪上评估模型。我们还将所有Swin模型的空间窗口大小从7增加到12。

    B.2。视频分类

    在表3中,我们使用[50]中所述的超参数对视频模型进行了微调。对于某些东西-v2,我们使用AdamW优化器对60个epoch进行了微调。我们在热身时使用半波余弦学习率。我们从10开始学习−6,并线性预热至6·10的峰值学习率−3超过5%的训练,其余95%我们使用半波余弦时间表将学习率降回10−6.我们用这个学习率训练分类头,用0.1×以上的学习率训练主干。在整个过程中,我们使用了0.05的权重衰减。我们使用的批处理大小为4×64,分布在64个32GB GPU上。对于EPICKitchens-100,我们使用类似的超参数,唯一的区别是我们使用的峰值学习率为1.8·10−我们训练了150个epoch。这些设置为特定于模态的基线提供了更好的性能,我们使用它来微调基线和Omnivore。

    在预处理方面,在训练时,我们使用[50]中的时间段采样从完整视频中以步幅2采样32帧视频片段。我们将视频的短边缩放到256px,随机调整大小224px,然后进行随机增强和随机擦除。在测试时,我们再次用步幅2采样一个32帧的剪辑,将短边缩放到224px,并沿长轴进行3次空间裁剪,得到224×224个裁剪。最后的预测是这些作物的平均值。

    为了与表6中的最新技术进行比较,当使用IN21K对Omnivore进行微调时,我们发现稍微不同的超参数表现更好。对于某种东西-v2,我们使用了1.2·10的峰值学习率−3超过150个epoch。对于EPIC-Kitchens-100,我们使用了0.004的权重衰减,超过100个时期,峰值学习率为4·10−4、主干和头部学习率相同。我们还使用了cutmix增强和标签平滑。两种情况下的所有其他超参数如前所述。我们还使用EMA,其设置与预训练使用的类似。

    B.3。单视图3D任务

    纽约大学场景分类。

    我们按照[33]中的设置进行场景分类,并使用从最初的19个类派生的10个类。在表7(分类)中,最佳的Swin B和Swin L模型被训练了200个时期,起始学习率为5×10−3,Swin B和1×10的权重衰减为0−4对于Swin L.所有其他超参数如前所述。

    纽约大学RGBD分割。

    我们遵循[10]中的训练和评估设置。我们遵循Swin分割体系结构,该体系结构使用带有Swin主干的超级网[91]头部。所有模型都使用AdamW[52]进行了微调,权重衰减为0.01。学习速率遵循多项式衰减(幂1)时间表,从0.00006开始。我们将学习速率预热1500次迭代,并以32个批量训练模型。纽约大学的所有深度图都通过使用Kinect传感器的相机基线和焦距转换为视差图。

    B.4。k-NN实验

    在ImageNet-1K上提取深度。

    我们在IN1K训练组上运行了单目深度预测模型[72]。我们使用预训练的dpt大模型,并遵循[72]中提供的输入图像预处理步骤。使用不同的模式对ImageNet-1K进行分类。

    对于使用不同模式进行分类的实验,我们使用RGB、RGBD或just Depth(D)模式从1K序列集中提取特征,并使用RGB模式在1K验证集中提取特征。我们遵循[12]中的k-NN协议进行评估,并在下面对其进行简要描述。我们提取第3阶段[49]特征,并对其进行L2标准化。对于作为查询的每个验证特征,我们使用欧几里德距离从序列集中检索最近的邻居,并获取top-k最近的匹配。对于每个匹配,我们使用其地面真值标签创建一个热向量,并按e s/τ对其进行缩放,其中s是匹配图像特征与查询图像之间的点积,τ是温度超参数(设置为0.07)。我们通过对top-k-one热向量求和来计算查询的有效预测。类似的处理用于图1和图4中的可视化。

    C.其他结果

    我们在图中给出了Omnivore在VideoSwin基线(主要论文§4.1)上的增益。6和7

    相关文章

      网友评论

          本文标题:Omnivore

          本文链接:https://www.haomeiwen.com/subject/dvthdrtx.html