1、Transformer 模型的结构图
图 1.12、Transformer 模型简述
Transformer 是由多个 self-attention 神经网络层组成的 Encoder-Decoder 结构的神经网络模型
3、Multi-Head Attention 结构
4、Transformer 的超参数
图 4.1注: 是嵌入的维度,即 embedding_size
1、Transformer 模型的结构图
图 1.12、Transformer 模型简述
Transformer 是由多个 self-attention 神经网络层组成的 Encoder-Decoder 结构的神经网络模型
3、Multi-Head Attention 结构
4、Transformer 的超参数
图 4.1注: 是嵌入的维度,即 embedding_size
本文标题:Transformer 模型总结
本文链接:https://www.haomeiwen.com/subject/tscenctx.html
网友评论