Transformer 模型总结

作者: LCG22 | 来源:发表于2020-01-12 01:55 被阅读0次

    1、Transformer 模型的结构图

    图 1.1

    2、Transformer 模型简述

    Transformer 是由多个 self-attention 神经网络层组成的 Encoder-Decoder 结构的神经网络模型

    3、Multi-Head Attention 结构

    4、Transformer 的超参数

    图 4.1

    注:d_{model} 是嵌入的维度,即 embedding_size

    相关文章

      网友评论

        本文标题:Transformer 模型总结

        本文链接:https://www.haomeiwen.com/subject/tscenctx.html