美文网首页
Transformer理解

Transformer理解

作者: Jycoding | 来源:发表于2023-03-08 12:27 被阅读0次

    首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构:

    可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:

    第一步:获取输入句子的每一个单词的表示向量 XX由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 相加得到。

    第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,每一个 Encoder block 输出的矩阵维度与输入完全一致。

    第三步:将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。

    Transofrmer Decoder 预测

    上图 Decoder 接收了 Encoder 的编码矩阵 C,然后首先输入一个翻译开始符 "<Begin>",预测第一个单词 "I";然后输入翻译开始符 "<Begin>" 和单词 "I",预测单词 "have",以此类推。

    Self-Attention 的输出

    得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了,计算的公式如下:

    相关文章

      网友评论

          本文标题:Transformer理解

          本文链接:https://www.haomeiwen.com/subject/ngqoldtx.html