美文网首页
速学Transformer!原理篇

速学Transformer!原理篇

作者: thelong的学习日记 | 来源:发表于2021-02-01 17:20 被阅读0次

    Transformer的模型架构

    首先建立一个概念,Transformer由两部分组成,编码器Encoder和解码器Decoder。
    Encoder:读取输入语句并生成其representation。
    Decoder:参考Encoder生成的输入语句的representation,逐词生成输出语句。

    论文中的Transformer的架构图是长这个样子的,左边是Encoder,右边是Decoder:

    Transformer架构图
    为了方便理解它的交互方式,可以把它看成这个样子:

    有了一个整体性概念以后,接下来关注Encoder和Decoder部分:

    • Encoder:Encoder部分目的比较单纯,就是从原始句子中提取特征。
    • Decoder:Decoder部分则功能相对比较多,除了特征提取功能外,还包含语言模型功能,以及用attention机制表达的翻译模型功能。
      当用Transformer做特征抽取时,实际上指的只是Transformer 的Encoder部分,Bert所用的Transformer就是如此。
      decoder介绍可以看这里,接下来重点关注一下Encoder的内部细节。
      俊林大神的示意图
      Encoder = Multi-head self attention+Skip connection+LayerNorm+FF
    • Multi-head self attention:Transformer的核心所在,Illustrated: Self-Attention
    • Skip connection:大名鼎鼎的残差连接,解决梯度问题。
    • LayerNorm:对上一层的输出做归一化,缓解过拟合,模型优化之Layer Normalization
    • FF:前馈神经网络,即MLP

    看张俊林老师的文章,发现这么一句话: “这里需要强调一下,尽管Transformer原始论文一直重点在说Self Attention,但是目前来看,能让Transformer效果好的,不仅仅是Self attention,这个Block里所有元素,包括Multi-head self attention,Skip connection,LayerNorm,FF一起在发挥作用。为什么这么说?[2]”
      目前不太明白,懂了再来填坑

    缺陷

    Transformer主要存在以下几点不足:

    • 缺少Recurrent Inductive Bias
      学习算法中Inductive Bias可以用来预测从未遇到的输入的输出(参考[10])。对于很多序列建模任务(如需要对输入的层次结构进行建模时,或者在训练和推理期间输入长度的分布不同时),Recurrent Inductive Bias至关重要。EMNLP 2018 上的一个工作[9]对这一点进行了实证。

    • Transformer是非图灵完备的
      非图灵完备通俗的理解,就是无法解决所有的问题(详情可以看这里)。

    • transformer缺少conditional computation
      transformer在encoder的过程中,所有输入元素都有相同的计算量,比如对于“I arrived at the bank after crossing the river”, 和”river”相比,需要更多的背景知识来推断单词”bank”的含义,然而transformer在编码这个句子的时候,无条件对于每个单词应用相同的计算量,这样的过程显然是低效的。

    • 不能很好的处理超长输入
      理论上来说,attention可以关联两个任意远距离的词,但实际中,由于计算资源有限,仍然会限制输入序列的长度,超过这个长度的序列会被截断

    参考:

    1. The Illustrated Transformer
    2. 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取(CNN/RNN/TF)比较
    3. transformer详解:transformer/ universal transformer/ transformer-XL

    相关文章

      网友评论

          本文标题:速学Transformer!原理篇

          本文链接:https://www.haomeiwen.com/subject/razjtltx.html