深度语言模型-Transformer-XL

作者: 南朝容止 | 来源:发表于2021-02-20 13:16 被阅读0次

简介

2019年提出《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文，是在Transformer基础上的改进或变种，名字中的XL是extra long的缩写，顾名思义，旨在解决长序列问题。这是一个一直困扰着前辈们很久的问题。

个人见解

看了好几遍论文，其实个人觉得最主要的一点，就是它采用的Masked Attention，并非Transformer中的Self-Attenttion。二者有些区别。可以见本人的另一篇文章《深度语言模型-GPT》。

确定的Masked Attention后，接下来就好理解了。先看下Transformer-XL为什么被提出来的？

其实严肃的算下来，Transformer应该是Transformer-XL的祖父，其他的父亲是谁呢？正是Vanilla Transformer, 也是一种特征提取器，但是为父有三个问题：

无法解决长距离依赖问题
因为Transformer类的模型，如BERT一般都会给每个Segment（每句话）设置一个固定长度比如512，当segment(句子)长度小于512时，就会补充PAD。然而当segment大于512时，就会截断后面的多余的部分。这就是问题所在，截断的部分如果很重要呢？所以长距离依赖问题，被你咔咔一下就截掉了，很不好呀。
segment间语义不完整
之所以定为512很大的是由于效率问题，再有就是统一的固定长度，模型处理起来也方便。但是超过512的部分就截断，太武断了。没有考虑到句子的自然边界。导致强硬分割出来的sengments在语义上不完整。如下面图，训练阶段，都是在自己本Segment内部产生依赖，不会依赖其他的Segment。
计算慢
之所计算慢，是因为在测试阶段，每次预测下一个单词，都需要重新构建一遍上下文，并从头开始计算，这样的计算速度非常慢。

image.png

面对Transformer先辈们遗留下来的问题，后人Transformer-XL决定要改变一下，一穷二白，毕竟不是社会主义。

算法流程

Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新：

循环机制（Recurrence Mechanism）

1. 解决长距离依赖问题
  训练和预测是，每次都是滑动窗口一下，但是窗口大小不变，则没有了固定长度定长问题。
2. 解决segment间语义不完整问题
  如上图Transformer-XL中，可以发现，每个segment会引用到前面segment的节点，由绿线引过去。同时也会依赖自己segment的当前节点前面的节点，由灰线引过去。
3. 解决计算慢的问题
  无非是用空间换时间，把前面算的状态都缓存起来，然后后面依赖前面的状态，拿来即用。
公式1

接下来讲解下，上面循环机制的公式：
γ+1为当前segment， γ为前面的segment。
其中

变量1

是计算K和V的重要因子，也就是计算Attention的重要因子，可以发现其有两部分组成：
- h_γ^n-1 代表前面γ segment的n-1层隐状态。其中SG为stop
  Gradient的缩写，这里的意义是只用前面的状态进行计算，但是不会反向进行梯度更新。
- h_γ+1^n-1 代表当前γ+1 segment的n-1层隐状态。
  然后根据 h_γ+1^n-1 、上图变量1、以及初始化的参数矩阵 W_q^T， W_k^T， W_v^T 分别得到q_γ+1ⁿ，k_γ+1ⁿ， v_γ+1ⁿ，
  最后在经过Transformer-Layer函数得到下一层的隐状态

相对位置编码（Relative Positional Encoding）。

上面的循环机制虽然好，但是直接引入循环机制是否有问题，有什么问题，怎么克服。

问题

最大的问题就是：位置编码问题，再用之前的问题编码就有问题了。比如同一个词，在滑动窗口内部，在前后两个segment里面都有，而且位置相同怎么办？那不就相当于在滑动窗口内部出现了完全相同的两个东西了吗？表示序列中token的顺序关系就不复存在了，打乱了序列顺序关系，学出来的模型肯定有问题，因为token的顺序对语义很重要。

解决

引入相对位置编码 R_i-j.

那么往哪里引入？
其实Transformer的Encoder中，不就是在Attention中需要用到么，其他的地方操作都是利用Attention的输出进行一些Normalize或者其他的的运算，所以改进下Attention就行了。
怎么改的呢？
看下面两个公式：

图片1

图片2
第一个图片公式是vanilla Trm计算attention的方式，其实Attention的最初的公式用绝对位置时，是下面这样的，

图片3
分解展开之后就是图片1了。
针对图片1，其中 E_x是token的Embedding。
U是绝对位置编码的embedding。W_q， W_k分别为Q，K的初始参数矩阵。

而对于图片2，是Transform-XL计算attention的方式。做了以下变化：

变化一
首先将绝对位置编码U变成了R_i-j. 因为是Masked Attention方式，利用之前的序列，所以当前处理的节点 i 肯定大于 j。而R采用正弦函数生成，不是学习得到的，优点是在预测时，可以使用比训练距离更长的位置向量。
变化二
公式c中： U_i * W_q 替换成了向量参数u ∈ R
公式d中： U_i * W_q 替换成了向量参数v ∈ R
之所以这么做，个人觉得就是把绝对位置编码U干掉，不在公式任何地方出现。u和v都通过学习得到。
变化三
将 W_k 矩阵再细分成两组矩阵 W_k,E ，W_k,R 分别代表基于内容的key向量和基于位置的key向量。

最终公式

image.png

注意点：

主要区别在前三行。
每一层在计算attention的时候，用的是相对位置编码。

特点

*优点
Transformer-XL 在 vanilla Transformer 模型基础上改进，通过引入循环机制和注意力机制，允许模型学习长期依赖性，有以下几点优势：
1. 解决长距离依赖问题
2. 解决segment间语义不完整问题
3. 解决计算慢的问题
按照论文的描述，TransformerXL学习的依赖关系比RNN长80%，比传统Transformer长450%，在短序列和长序列上都获得了更好的性能，并且在评估阶段比传统Transformer快1800+倍。
XLNET以其为base，又搞了个新模型。

*缺点

尚未广泛应用，尤其是NLP的一些常见类型任务，如QA等。
由于空间换时间，提升效率，所以耗内存或者显存。并且在Github源码中提到，目前的sota结果是在TPU大集群上训练得出，应用成本高。

网友评论

本文标题：深度语言模型-Transformer-XL

本文链接：https://www.haomeiwen.com/subject/gqtzxltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！