美文网首页
Transformer

Transformer

作者: dreampai | 来源:发表于2019-12-27 11:44 被阅读0次
  • Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行

  • Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率

  • 它是由编码组件、解码组件和它们之间的连接组成。

  • 编码组件部分由一堆编码器(encoder)构成

  • 解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。

  • 所有的编码器在结构上都是相同的,但它们没有共享参数。

  • 每个解码器都可以分解成两个子层。

  • 从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词

  • 自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全一样

  • 解码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层。

  • 除此之外,这两个层之间还有一个注意力层,用来关注输入句子的相关部分

参考链接

相关文章

网友评论

      本文标题:Transformer

      本文链接:https://www.haomeiwen.com/subject/cstdoctx.html