CoLT5: Faster Long-Range Transformers with Conditional Computation
Mar 2023
Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai
[Google Research]
https://arxiv.org/abs/2303.09752
许多自然语言处理任务都受益于长输入,但使用Transformer处理长文档的成本很高——这不仅是由于二次注意力的复杂性,还因为将前馈和投影层应用于每个令牌。然而,并不是所有的令牌都同等重要,尤其是对于较长的文档。我们提出了CoLT5,这是一个长输入Transformer模型,它通过使用条件计算建立在这种直觉的基础上,将更多的资源用于前馈层和注意力层中的重要令牌。我们表明,CoLT5通过更快的训练和推理实现了比LongT5更强的性能,在长输入SCROLLS基准上实现了SOTA。此外,CoLT5可以有效且易于处理地利用超长输入,显示出高达64k输入长度的强大增益。
![](https://img.haomeiwen.com/i13727053/68b36ece9df87da5.png)
网友评论