Transformer: Sequence-to-sequence(Seq2sq)
input a sequence, output a sequence
Seq2seq for Syntactic Parsing (文法分析)
Grammar as a Foreign Language
Seq2seq for Multi-laber Classification
Multi-class : 从多个class中选择一个
Multi-laber:一个object可以属于多个class
Seq2seq for Object Detection
Seq2Seq
最早的Seq2Seq
现在的Seq2Seq
Encoder
Transformer 总体来说是用到了Self-attention:
实际上的过程会复杂一些:
实际上这个Encoder的设计也不是最好的:
Decoder
其实Decoder并没有特别大的差别(如果不看中间灰色部分的话)
Masked Self-attention?
Why masked?
在Decoder运作的时候,输出是一个一个产生的,所以没有办法考虑后续的信息。
网友评论