transformer
模型的输入Embedding层
Word Embedding
Positional Encodding
encoder
encoder layer
SubLayerConnection1
多头自注意力层
注意力层(q,k,v均是来自上一个子层)
mask
规范化层LayerNorm
残差连接
SubLayerConnection2
前馈全连接层
规范化层LayerNorm
残差连接
decoder
decoder layer
SubLayerConnection1
多头自注意力子层(和encoder的完全一样)
注意力层(q,k,v均是来自上一个子层)
mask
规范化层LayerNorm
残差连接
SubLayerConnection2
多头注意力子层
注意力层(query来自上一个子层,key和value来自编码器的输出)
mask
规范化层LayerNorm
残差连接
SubLayerConnection3
前馈全连接层
规范化层LayerNorm
残差连接
网友评论