-
Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行
-
Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率
-
它是由编码组件、解码组件和它们之间的连接组成。
-
编码组件部分由一堆编码器(encoder)构成
-
解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。
-
所有的编码器在结构上都是相同的,但它们没有共享参数。
-
每个解码器都可以分解成两个子层。
-
从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词
-
自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全一样
-
解码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层。
-
除此之外,这两个层之间还有一个注意力层,用来关注输入句子的相关部分
网友评论