A Data-Augmentation Is Worth A Thousand Samples: Exact Quantification From Analytical Augmented Sample Moments
Ditto: Building Digital Twins of Articulated Objects from Interaction
cosFormer: Rethinking Softmax in Attention
AKB-48: A Real-World Articulated Object Knowledge Base 真实世界大规模铰接物体知识库
Compute Trends Across Three Eras of Machine Learning
General-purpose, long-context autoregressive modeling with Perceiver AR 基于Perceiver AR的通用长上下文自回归建模。
How Do Vision Transformers Work?
Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer 多任务Transformer弱监督文本识别探索
Block-NeRF: Scalable Large Scene Neural View Synthesis
Point-Level Region Contrast for Object Detection Pre-Training 基于点级区域对比的目标检测自监督预训练
Open-World Semi-Supervised Learning
When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism 基于移位操作的视觉Transformer:一种极其简单的注意力机制替代方案。人们普遍认为注意力机制是视觉Transformer(ViT)成功的关键,因为它为空间关系建模提供了一种灵活而强大的方式。然而,注意力机制真的是ViT不可缺少的一部分吗?它可以被其他机制所取代吗?为了揭开注意力机制的神秘面纱,本文将其简化为一个极其简单的案例:ZERO FLOP和ZERO参数。重新思考了移位操作,不包含任何参数或算术计算,唯一的操作是在相邻的特征之间交换一小部分通道。基于这个简单的操作,构建了一种新的骨干网络ShiftViT,ViT中的注意力层被移位操作所取代。令人惊讶的是,ShiftViT在几个主流任务中工作得相当好,例如分类、检测和分割。其性能与强大的基线Swin Transformer相当,甚至更好。这些结果表明,注意力机制可能不是使ViT成功的关键因素,甚至可以被一个零参数的操作所取代。由于移位操作已经是最简单的空间建模模块,良好性能一定来自ViT的其余部分,如FFN和训练方案。应该在未来的工作中更加关注ViT的其余部分。
Patches Are All You Need?
Representing Long-Range Context for Graph Neural Networks with Global Attention 基于全局注意力的图神经网络长程上下文表示。图神经网络是处理结构化数据集的强大架构。然而,目前的方法在表示长程依赖关系方面很困难。扩展图神经网络的深度或宽度不足以扩大感受野,因为较大的图神经网络会遇到优化不稳定的问题,如梯度消失和表示过平滑,而基于池化的方法还没有像计算机视觉那样变得普遍有用。本文提出用基于Transformer的自注意力来学习长程成对关系,用一种新的"读出(readout)"机制来获得全局图嵌入。最近的计算机视觉结果发现,位置不变的注意力在学习长程关系方面表现良好,受此启发,提出了GraphTrans,在标准的GNN模块后应用了一个置换不变性Transformer模块。这种简单的结构导致了在几个图分类任务上的最先进的结果,超过了显式编码图结构的方法。结果表明,没有图结构性先验因素的单纯基于学习方法可能适合图上高层次、长程关系的学习。
Large-Scale Representation Learning on Graphs via Bootstrapping 基于Bootstrapping的大规模图表示学习。自监督学习为消除图表示学习中对昂贵标签信息的需要提供了一条有希望的道路。然而,要达到最先进的性能,往往需要大量的负样本,并依赖于复杂的增强。这可能是非常昂贵的,特别是对于大型的图来说。为应对这些挑战,本文提出Bootstrapped Graph Latents(BGRL)这种图表示学习方法,通过预测输入的替代增强来学习。BGRL只使用简单的增强,并减轻了与负样本进行对比的需要,因此在设计上是可扩展的。BGRL在几个既定的基准上优于或匹配之前的方法,同时内存成本降低了2-10倍。BGRL可以在半监督状态下扩展到数亿个节点的超大图上,实现最先进的性能,比有监督基线更有优势,在监督基线上,表示只通过标签信息形成。
Omnivore: A Single Model for Many Visual Modalities OMNIVORE:面向视觉多模态的单一模型。之前的工作是孤立研究不同的视觉模态,并为图像、视频和3D数据的识别开发单独的架构。本文提出一种单一模型,用完全相同的模型参数对图像、视频和单视角3D数据进行分类。所提出的"OMNIVORE"模型利用了基于Transformer架构的灵活性,对不同模态的分类任务进行联合训练。OMNIVORE的训练很简单,用现成的标准数据集,表现与相同规模的特定模态的模型相当或更好。单一OMNIVORE模型在ImageNet上获得了86.0%,在Kinetics上获得了84.1%,在SUN RGB-D上获得了67.1%。经过微调,所提出模型在各种视觉任务上的表现优于之前的工作,并在不同的模态中具有通用性。OMNIVORE的共享视觉表示自然地实现了跨模态识别,而不需要访问模态之间的对应关系。
SLIP: Self-supervision meets Language-Image Pre-training SLIP:自监督与语言-图像预训练的结合。最近的工作表明,在具有挑战性的视觉识别任务上,自监督预训练带来了相比有监督学习的改进。CLIP是一种令人兴奋的带有语言监督的学习新方法,在各种基准上表现出令人鼓舞的性能。本文探讨了自监督学习是否可以帮助使用语言监督的视觉表示学习。提出SLIP,一种结合自监督学习和CLIP预训练的多任务学习框架。在用Vision Transformer进行预训练后,彻底评估了表示质量,并在三种不同的设置下比较了CLIP和自监督学习的性能:零样本迁移、线性分类和端到端微调。在ImageNet和其他数据集中,发现SLIP以很大的幅度提高了精度。通过对不同的模型规模、训练规划和预训练数据集的实验,进行了进一步的验证。sshi实验结果表明,SLIP享有两方面的优势:比自监督(+8.1%的线性准确率)和语言监督(+5.2%的零样本准确率)的性能更好。
Stereo Magnification with Multi-Layer Images 多层图像的立体放大。用多个半透明彩色图层来表示场景,一直是实时新视图合成的一个流行和成功的选择。现有的方法是在平面或球形形状的规则间隔的层上推断颜色和透明度值。本文提出一种新的视图合成方法,基于具有场景适应几何的多个半透明层。所提方法分两个阶段从立体对中推断出这种表示。第一阶段从给定视图对推断少量数据自适应层的几何。第二阶段推断出这些层的颜色和透明度值,产生新视图合成的最终表示。重要的是,两个阶段通过一个可微的渲染器连接,以端到端方式进行训练。实验证明了所提出方法比使用不适应场景几何的规则空间层的优势。渲染过程速度快了几个数量级,优于最近提出的基于隐式几何表示的IBRNet系统。
Dense Extreme Inception Network for Edge Detection 基于稠密极限Inception网络的边缘检测。边缘检测是许多计算机视觉应用的基础。目前的技术水平主要依赖于深度学习,有两个决定性的因素:数据集内容和网络结构。大多数公开可用的数据集都不是为边缘检测任务而策划的。本文为该限制提供了一个解决方案。尽管边缘、轮廓和边界有重叠,但它们是三种不同的视觉特征,需要单独的基准数据集。本文提供了一种新的边缘数据集,提出一种新架构,面向边缘检测的稠密极限Inception网络(DexiNed),可以从头开始训练,不需要任何预训练权重。DexiNed在所提供数据集上的表现优于其他算法,可以很好地推广到其他数据集,而不需要进行任何微调。由于DexiNed输出的边缘更清晰、更精细,其更高的质量在感知上也很明显。
QuadTree Attention for Vision Transformers
HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video 单目视频移动人物自由视角渲染。
Language-driven Semantic Segmentation 语言驱动的语义分割。
NeROIC: Neural Rendering of Objects from Online Image Collections 在线图像集物体神经渲染。
Label, Verify, Correct: A Simple Few Shot Object Detection Method 标记、验证、纠正:简单的少样本目标检测方法。本文目标是少样本目标检测(FSOD)——为一个新类别扩展目标检测器的任务,只需给几个实例进行训练。提出了一种简单的伪标签方法,从训练集中为每个新类别提供高质量的伪标记,大大增加了训练样本的数量,减少了类别的不平衡;该方法可找到以前没有标记的样本。用模型预测进行朴素训练会产生次优的性能;本文提出了两种新方法来提高伪标记过程的精度:提出一种验证技术来删除具有错误类别标记的候选检测;训练了一个专门模型来纠正质量差的边框。在这两个新步骤之后,获得了一大批高质量的伪标记,使最终检测器可以进行端到端训练。实验证明该方法能保持基础类性能,以及FSOD中简单增强的效用。在对PASCAL VOC和MS-COCO进行基准测试时,所提出方法与现有方法相比,在所有样本数上都达到了最先进或第二好的性能。
Vision Transformer with Deformable Attention
A New Perspective on "How Graph Neural Networks Go Beyond Weisfeiler-Lehman?" Anonymous authors (2021) “图神经网络如何超越Weisfeiler-Lehman?”的新视角。本文提出了设计强大图神经网络(GNN)的新视角,获得了将图结构特性注入GNN消息传递聚合方案的通用解决方案。作为理论基础,首先在邻域子图上开发了一种新的局部同构层次。然后,泛化了消息传递聚合方案,以从理论上描述如何将GNN设计为比Weisfeiler Lehman测试更具表现力。为详细说明该框架,本文提出一种新的神经模型GraphSNN,并证明该模型在区分图结构方面比Weisfeiler Lehman测试更具表现力。凭经验验证了该模型在不同图学习任务上的强度。结果表明,所提出模型在不牺牲计算简单性和效率的情况下,不断改进了基准任务上的最新方法。
网友评论