美文网首页
CoLT5:具有条件计算的更快的长输入Transformers

CoLT5:具有条件计算的更快的长输入Transformers

作者: Valar_Morghulis | 来源:发表于2023-03-22 14:06 被阅读0次

CoLT5: Faster Long-Range Transformers with Conditional Computation

Mar 2023

Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai

[Google Research]

https://arxiv.org/abs/2303.09752

许多自然语言处理任务都受益于长输入,但使用Transformer处理长文档的成本很高——这不仅是由于二次注意力的复杂性,还因为将前馈和投影层应用于每个令牌。然而,并不是所有的令牌都同等重要,尤其是对于较长的文档。我们提出了CoLT5,这是一个长输入Transformer模型,它通过使用条件计算建立在这种直觉的基础上,将更多的资源用于前馈层和注意力层中的重要令牌。我们表明,CoLT5通过更快的训练和推理实现了比LongT5更强的性能,在长输入SCROLLS基准上实现了SOTA。此外,CoLT5可以有效且易于处理地利用超长输入,显示出高达64k输入长度的强大增益。

相关文章

  • Go Socket

    Socket 计算机计算时需输入和输出,输入需计算的条件,输出需计算的结果,输入和输出可抽象为I/O(Input/...

  • socket原理

    何谓socket 计算机,顾名思义即是用来做计算。因而也需要输入和输出,输入需要计算的条件,输出计算结果。这些输入...

  • Socket通信原理简介

    何谓socket 计算机,顾名思义即是用来做计算。因而也需要输入和输出,输入需要计算的条件,输出计算结果。这些输入...

  • socket编程原理认识

    何谓socket 计算机,顾名思义即是用来做计算。因而也需要输入和输出,输入需要计算的条件,输出计算结果。这些输入...

  • 朴素贝叶斯分类器 Native Bayes

    贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,属于有监督...

  • MySQL常用命令(三)-IN、LIKE

    IN 与OR的功能相似,但是与OR相比具有更多优势 更简洁; 计算速度更快; 可以包含其他的SELECT语句,功能...

  • 面经

    transformers QKV,不同维度 : n为输入句子长度: m为输出句子长度(attention scor...

  • 钉钉条件流程怎么设置?

    1、条件选项(触发条件) 首先能实现条件分支的控件是【数字输入框】【金额】【部门】【单选框】【计算公式】【多选框】...

  • 区块链骨骼:密码算法

    3.1.1什么是哈希算法 密码学上的哈希计算方法一般需要具有以下的性质: 1.函数的输入可以是任意长的字符串 2....

  • 区块基础知识

    哈希算法的本质: 哈希函数输入可以是任意长的字符串函数输出是固定长度的函数计算过程具有一定的效率 为保障哈希函数的...

网友评论

      本文标题:CoLT5:具有条件计算的更快的长输入Transformers

      本文链接:https://www.haomeiwen.com/subject/ajzvrdtx.html