用于序列建模的简单的硬件高效长卷积

作者: Valar_Morghulis | 来源:发表于2023-02-18 21:33 被阅读0次

用于人类活动辨认的多通道时间序列上的深度卷积神经网络
高斯模糊
AI深度学习图像识别神经网络tensorflow-keras源码
时间卷积网络TCN[转载]
google--Protobuffer 编译器总结分析
Google Protocol Buffer
keras 例子
Informer：用于长序列时间序列预测的新型Transform
10分钟快速入门PyTorch (10)
nlp-with-transformers实战-01_trans

Simple Hardware-Efficient Long Convolutions for Sequence Modeling

13 February, 2023

https://arxiv.org/abs/2302.06646

https://github.com/HazyResearch/safari

Daniel Y. Fu, Elliot L. Epstein, Eric Nguyen, Armin W. Thomas, Michael Zhang, Tri Dao, Atri Rudra, Christopher Ré

状态空间模型（SSM）在长序列建模上具有高性能，但需要复杂的初始化技术和专门的实现来实现高质量和运行时性能。我们研究了一种简单的替代方案能否在性能和效率上与SSM相匹配：直接学习序列上的长卷积。我们发现，实现高性能的关键要求是保持卷积核的平滑。我们发现，简单的干预措施（如挤压核权重）可以使内核平滑，并恢复SSM在一系列任务中的性能，包括long range arena、图像分类、语言建模和大脑数据建模。接下来，我们开发FlashButterfly，一种IO感知算法，以提高长卷积的运行时性能。FlashButterfly采用经典的蝶形卷积分解来减少GPU内存IO并提高FLOP利用率。FlashButterfly将卷积速度提高了2.2倍，并允许我们在Path256上进行训练，这是一项具有挑战性的任务，序列长度为64K，我们将最新技术设置为29.1分，训练速度比之前的工作快7.2倍。最后，我们介绍了FlashButterfly的一个扩展，它学习Butterfl分解的系数，在不增加运行时的情况下提高了表现力。使用此扩展，我们比WikiText103上的Transformer性能提高了0.2 PPL，参数减少了30%