将循环编码到Transformer

作者: Valar_Morghulis | 来源:发表于2023-02-02 00:45 被阅读0次

速学Transformer！原理篇
Transformer 变形金刚
transformer再记（解码器）
Scikit-Learn的LabelEncoder、OneHot
Transformer 在图像中的运用（一）VIT(Transf
transformer再记（编码器）
Transformer编码层-Bert深度
位置编码
transformer编码层-Bert底层介绍
手撸一个Transformer

Encoding Recurrence into Transformers

https://openreview.net/forum?id=7YfHla7IxBJ 评分[8，8，6]

要点：证明了线性激活 RNN 层等同于基于可忽略近似损失的多头自注意力(MHSA)；RNN 层的循环动态完全封装在位置编码中，称为循环编码矩阵(REM)，使得将REM添加到任意现有基于自注意力机制的 Transformer 架构成为可能，从而形成循环自注意力(RSA)模块；在四个序列任务上的实验表明，所提出的 RSA 模块可以提高基线 Transformer 的采样效率，并得到明显改善的性能支持。

一句话总结：本文提出了一个名为循环自注意力(RSA)的新模块，使用循环编码矩阵(REM)和门控机制将 RNN 的循环动力学无缝集成到 Transformer 中，提高了序列任务的样本效率和性能，发现时间序列数据比常规语言具有更强的循环信号。

摘要：本文以可忽略的损失将 RNN 层分解为一连串简单的 RNN，每个 RNN 都可以进一步改写为一个轻量的自注意力的位置编码矩阵，称为循环编码矩阵(REM)。由 RNN 层引入的循环动态可以被封装到多头自注意力的位置编码中，使得将这些循环动态无缝地纳入到 Transformer 中成为可能，从而形成一个新的模块——循环自注意力(RSA)模块。所提出的模块可以利用REM的循环归纳偏差，以达到比其相应的基线 Transformer 更好的采样效率，而自注意力则用于对其余的非循环信号进行建模。这两部分的相对比例由数据驱动的门控机制控制，四个连续学习任务上的实验证明了 RSA 模块的有效性。