Mega: 移动平均门控注意力

作者: Valar_Morghulis | 来源:发表于2023-02-01 00:25 被阅读0次

Tensorflow滑动平均模型ExponentialMovin
移动平均值
【Excel系列】Excel数据分析：时间序列预测
看盘：常用技术分析指标--MACD
只看均线指标, 既简单又实用
MACD指标
MACD指标用法
外汇阶梯学习（小学）——移动平均线（二）
移动平均介绍 + 为什么移动平均是一种低通滤波
资深老股民的谨言：MACD最佳买入信号，学不会别炒股了！

Mega: Moving Average Equipped Gated Attention

https://openreview.net/forum?id=qNLe3iq2El 评分[8，8，5，8]

ICLR 2023

https://arxiv.org/abs/2209.10655

https://github.com/facebookresearch/mega

要点：提出 Mega，一种采用指数移动平均的简单且具有理论基础的单头门控注意力机制；将位置感知的局部依赖性纳入位置无关注意力机制中；Mega 的变体 Mega-chunk，提供线性时间和空间复杂性，且质量损失最小。

一句话总结：Mega 是一种简单有效的神经架构，采用指数移动平均将归纳偏差纳入注意力机制，大大改进了各种数据类型和任务的其他序列模型。

摘要：Transformer 注意力机制的设计选择，包括弱归纳偏差和二次计算复杂度，限制了其在长序列建模中的应用。本文提出 Mega，一种简单、具有理论基础的单头门控注意力机制，采用(指数)移动平均，将位置感知局部依赖性的归纳偏差纳入位置无关的注意力机制中。进一步提出一种 Mega 变体，通过有效地将整个序列分为多个固定长度的块，提供线性时间和空间复杂性，且只产生最小的质量损失。对广泛的序列建模基准的广泛实验，包括 Long Range Arena、神经机器翻译、自回归语言建模及图像和语音分类，表明 Mega 比其他序列模型取得了重大改进，包括 Transformer 的变体和最近的状态空间模型。