我的博客: 菱歌's Blog | 听见美好
笔记原文地址:论文阅读笔记(3):Transformer-XL
论文题目:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context,下载链接
主要观点
-
如何赋予编码器捕获长距离依赖的能力
-
通过随机排列自然语言而预测某个位置可能出现的词,传统自回归语言模型的推广
问题
建立长期依赖:LSTM-->Transformer,带来问题:
-
固定长度(segment),对长文本效果不佳;
-
文本截断导致各个片段之间的信息也被截断,缺少上下文信息。
方法
片段级递归机制(segment-level recurrence mechanism)
用途:记忆机制,储存前一片段的信息,然后与当前片段信息拼接,公式如下。
其中,即前一片段的信息(TRM输出向量),SG指stop-gradient,
指concat,
TRML
指Transformer Layer.
注意:记忆的状态可以不止前一个segment,在本文实验中,状态的size和attention的length(即segment长度)相同。相当暴力...
相对位置编码机制(relative position embedding scheme)
用途:编码文本在不同片段的相对位置。
传统方法中,因为各个segment是没有联系的,在位置编码时只关注一个segment,采用绝对位置编码对进行编码:
可以看到,在和
,使用的位置编码是相同的,导致信息混淆。
传统的Attention:
与原Transformer中类似,提出一个,其中来表示
表示距离为
的两个位置,表达式改写为:
其中,主要的变化为:
-
变成了
:用相对位置替换绝对位置;
-
变成了
和
:之前是绝对位置编码作为query,在考虑相对位置的情况下,不需要查询绝对位置,所以将其改为可训练的向量;
-
在
,
中区分
和
:分别产生基于内容和位置的key(猜测是因为
项中没有位置相关信息了,所以将位置和内容信息分离开,效果更好。)
其中各部分用途为:
-
表示内容信息,
-
表示依赖于内容的位置信息,
-
为全局的内容bias, 调整内容的重要性;
-
为全局位置bias,调整距离的重要性。
其他重要的实验细节
-
参数量(由小到大,由于实验数据不同,参数量在不同数据间不一定可比)
-
12L Transformer-XL: 41M
-
12L Transformer: 44M
-
18L Transformer-XL: 88M
-
Transformer-XL Standard:151M
-
Transformer-XL Large: 257M
-
24L Transformer-XL: 277M
-
-
WikiText-103数据集下细节参考
-
103M training tokens from 28K articles
-
384 during training and 1600 during evaluation
-
-
enwik8数据集下细节参考
-
模型大小 18-layer and 24-layer Transformer-XLs
-
注意力长度: 784 during training and 3,800 during evaluation
-
-
base模型与large模型的gap
-
参数量:0.46B~0.8B
-
PPL: 23.5~21.8
-
base模型已经远超LSTM,相对于vanilla Transformer的改进方法Adaptive input则为23.5~23.7
-
large模型相对于Adaptive input则为21.8~23.7
-
相关论文与代码
-
Baevski A, Auli M. Adaptive input representations for neural language modeling[J]. arXiv preprint arXiv:1809.10853, 2018.
网友评论