美文网首页
深度语言模型-Transformer-XL

深度语言模型-Transformer-XL

作者: 南朝容止 | 来源:发表于2021-02-20 13:16 被阅读0次

    简介

    2019年提出《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文,是在Transformer基础上的改进或变种,名字中的XL是extra long的缩写,顾名思义,旨在解决长序列问题。 这是一个一直困扰着前辈们很久的问题。

    个人见解

    看了好几遍论文,其实个人觉得最主要的一点,就是它采用的Masked Attention,并非Transformer中的Self-Attenttion。 二者有些区别。可以见本人的另一篇文章《深度语言模型-GPT》。

    确定的Masked Attention后,接下来就好理解了。先看下Transformer-XL为什么被提出来的?

    其实严肃的算下来,Transformer应该是Transformer-XL的祖父,其他的父亲是谁呢?正是Vanilla Transformer, 也是一种特征提取器,但是为父有三个问题:

    • 无法解决长距离依赖问题
      因为Transformer类的模型,如BERT一般都会给每个Segment(每句话)设置一个固定长度比如512,当segment(句子)长度小于512时,就会补充PAD。 然而当segment大于512时,就会截断后面的多余的部分。这就是问题所在,截断的部分如果很重要呢?所以长距离依赖问题,被你咔咔一下就截掉了,很不好呀。

    • segment间语义不完整
      之所以定为512很大的是由于效率问题,再有就是统一的固定长度,模型处理起来也方便。但是超过512的部分就截断,太武断了。 没有考虑到句子的自然边界。导致强硬分割出来的sengments在语义上不完整。如下面图,训练阶段,都是在自己本Segment内部产生依赖,不会依赖其他的Segment。

    • 计算慢
      之所计算慢,是因为在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。


      image.png

    面对Transformer先辈们遗留下来的问题,后人Transformer-XL决定要改变一下,一穷二白,毕竟不是社会主义。

    算法流程

    Transformer-XL

    Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:

    循环机制(Recurrence Mechanism)

      1. 解决长距离依赖问题
        训练和预测是,每次都是滑动窗口一下,但是窗口大小不变,则没有了固定长度定长问题。
      2. 解决segment间语义不完整问题
        如上图Transformer-XL中,可以发现,每个segment会引用到前面segment的节点,由绿线引过去。同时也会依赖自己segment的当前节点前面的节点,由灰线引过去。
      3. 解决计算慢的问题
        无非是用空间换时间,把前面算的状态都缓存起来,然后后面依赖前面的状态,拿来即用。
      公式1

      接下来讲解下,上面循环机制的公式:
      γ+1为当前segment, γ为前面的segment。
      其中


      变量1

      是计算K和V的重要因子,也就是计算Attention的重要因子, 可以发现其有两部分组成:

      • hγn-1 代表前面γ segment的n-1层隐状态。 其中SG为stop
        Gradient的缩写,这里的意义是只用前面的状态进行计算,但是不会反向进行梯度更新 。
      • hγ+1n-1 代表当前γ+1 segment的n-1层隐状态。
        然后根据 hγ+1n-1 、上图变量1、以及初始化的参数矩阵 WqTWkTWvT 分别得到qγ+1nkγ+1nvγ+1n
        最后在经过Transformer-Layer函数得到下一层的隐状态

    相对位置编码(Relative Positional Encoding)。

    上面的循环机制虽然好,但是直接引入循环机制是否有问题,有什么问题,怎么克服。

    问题

    最大的问题就是:位置编码问题,再用之前的问题编码就有问题了。 比如同一个词,在滑动窗口内部, 在前后两个segment里面都有,而且位置相同怎么办? 那不就相当于在滑动窗口内部出现了完全相同的两个东西了吗?表示序列中token的顺序关系就不复存在了, 打乱了序列顺序关系,学出来的模型肯定有问题,因为token的顺序对语义很重要。

    解决

    引入相对位置编码 Ri-j.

    • 那么往哪里引入?
      其实Transformer的Encoder中,不就是在Attention中需要用到么,其他的地方操作都是利用Attention的输出进行一些Normalize或者其他的的运算,所以改进下Attention就行了。
    • 怎么改的呢?
      看下面两个公式:


      图片1
    图片2
    第一个图片公式是vanilla Trm计算attention的方式,其实Attention的最初的公式用绝对位置时,是下面这样的, 图片3
    分解展开之后就是图片1了。
    针对图片1, 其中 Ex是token的Embedding。
    U是绝对位置编码的embedding。WqWk分别为Q,K的初始参数矩阵。

    而对于图片2,是Transform-XL计算attention的方式。做了以下变化:

    • 变化一
      首先将绝对位置编码U变成了Ri-j. 因为是Masked Attention方式,利用之前的序列, 所以当前处理的节点 i 肯定大于 j。而R采用正弦函数生成,不是学习得到的,优点是在预测时,可以使用比训练距离更长的位置向量。
    • 变化二
      公式c中: Ui * Wq 替换成了向量参数u ∈ R
      公式d中: Ui * Wq 替换成了向量参数v ∈ R
      之所以这么做,个人觉得就是把 绝对位置编码U干掉,不在公式任何地方出现。u和v都通过学习得到。
    • 变化三
      Wk 矩阵再细分成两组矩阵 Wk,EWk,R 分别代表基于内容的key向量和基于位置的key向量。

    最终公式

    image.png

    注意点:

    • 主要区别在前三行。
    • 每一层在计算attention的时候,用的是相对位置编码。

    特点

    *优点
    Transformer-XL 在 vanilla Transformer 模型基础上改进,通过引入循环机制和注意力机制,允许模型学习长期依赖性, 有以下几点优势:
    1. 解决长距离依赖问题
    2. 解决segment间语义不完整问题
    3. 解决计算慢的问题
    按照论文的描述,TransformerXL学习的依赖关系比RNN长80%,比传统Transformer长450%,在短序列和长序列上都获得了更好的性能,并且在评估阶段比传统Transformer快1800+倍。
    XLNET以其为base,又搞了个新模型。

    *缺点

    • 尚未广泛应用,尤其是NLP的一些常见类型任务,如QA等。
    • 由于空间换时间,提升效率,所以耗内存或者显存。并且在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,应用成本高。

    相关文章

      网友评论

          本文标题:深度语言模型-Transformer-XL

          本文链接:https://www.haomeiwen.com/subject/gqtzxltx.html