Transformer: Sequence-to-sequence(Seq2sq)
input a sequence, output a sequence





Seq2seq for Syntactic Parsing (文法分析)

Grammar as a Foreign Language
Seq2seq for Multi-laber Classification
Multi-class : 从多个class中选择一个
Multi-laber:一个object可以属于多个class

Seq2seq for Object Detection

Seq2Seq
最早的Seq2Seq

现在的Seq2Seq

Encoder

Transformer 总体来说是用到了Self-attention:

实际上的过程会复杂一些:


实际上这个Encoder的设计也不是最好的:

Decoder

其实Decoder并没有特别大的差别(如果不看中间灰色部分的话)

Masked Self-attention?


Why masked?
在Decoder运作的时候,输出是一个一个产生的,所以没有办法考虑后续的信息。
网友评论