美文网首页
Token Merging:无需训练将ViT速度提升至2倍

Token Merging:无需训练将ViT速度提升至2倍

作者: Valar_Morghulis | 来源:发表于2023-01-14 08:51 被阅读0次

Token Merging: Your ViT But Faster

https://arxiv.org/abs/2210.09461

https://github.com/facebookresearch/tome

We introduce Token Merging (ToMe), a simple method to increase the throughput of existing ViT models without needing to train. ToMe gradually combines similar tokens in a transformer using a general and light-weight matching algorithm that is as fast as pruning while being more accurate. Off-the-shelf, ToMe can 2x the throughput of state-of-the-art ViT-L @ 512 and ViT-H @ 518 models on images and 2.2x the throughput of ViT-L on video with only a 0.2-0.3% accuracy drop in each case. ToMe can also easily be applied during training, improving in practice training speed up to 2x for MAE fine-tuning on video. Training with ToMe further minimizes accuracy drop, leading to 2x the throughput of ViT-B on audio for only a 0.4% mAP drop. Qualitatively, we find that ToMe merges object parts into one token, even over multiple frames of video. Overall, ToMe's accuracy and speed are competitive with state-of-the-art on images, video, and audio.

我们引入令牌合并(Token Merging,ToMe),这是一种简单的方法,可以在不需要训练的情况下提高现有ViT模型的吞吐量。ToMe使用一种通用的轻量级匹配算法,在一个变换器中逐步组合类似的令牌,这种算法与修剪一样快,同时更准确。现成的ToMe在图像上的吞吐量是最先进的ViT-L@512和ViT-H@518机型的两倍,在视频上的吞吐量为ViT-L的2.2倍,每种情况下的准确率仅为0.2-0.3%。ToMe也可以在训练过程中轻松应用,将实际训练速度提高到2倍,以便在视频中进行MAE微调。使用ToMe进行的训练进一步将精确度下降降至最低,从而使ViT-B在音频上的吞吐量提高了2倍,仅需0.4%的mAP下降。定性上,我们发现ToMe将对象部分合并到一个令牌中,甚至在多个视频帧上。总的来说,ToMe的准确性和速度在图像、视频和音频方面与最先进的技术具有竞争力。

相关文章

  • Tokens-to-Token ViT: Training Vi

    这篇文章是从改进ViT输入的角度来做的,在最初版本的ViT中,是将图像分成16*16个patch,每个patch展...

  • Tokens-to-Token ViT: Training Vi

    这篇论文是北深信工 袁粒老师2021年的工作, 收录在ICCV, 看到的时候已经有421份引用了, 非常厉害. 论...

  • 变量及函数的提升

    代码是从上而下执行的 变量的提升var定义:将声明的变量名提升至代码的最前面函数中声明的变量提升至函数内部最前面提...

  • 提升阅读速度的方法

    5.16 Claire 今年的目标之一便是将英文阅读速度提升至中文阅读速度。从周一买了一本英文书,慢悠悠地读,明明...

  • RCS(Rights Convert Staking)是区块链的

    今天我们将正式向行业宣布,将推出RCS Token经济模型。何为RCS Token模型?RCS Token模...

  • 合并 pull request(Merging a pull r

    本文翻译自 GitHub 帮助文档 Merging a pull request。 当工作完成之后,就可以将 pu...

  • 网赚

    提现记录接口 phone access_token

  • 算法—排序篇2

    1、归并排序(Merging Sort) 归并排序(Merging Sort): 就是利用归并的思想实现排序⽅法....

  • 鉴权token和refresh_token

    每次访问鉴权使用token,token使用aes对称加密,鉴权时直接解密得到uid,无需访问数据库验证,鉴权tok...

  • Training data-efficient image tra

    这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的...

网友评论

      本文标题:Token Merging:无需训练将ViT速度提升至2倍

      本文链接:https://www.haomeiwen.com/subject/gzqgzrtx.html