transformer笔记

作者: 柴柴总 | 来源:发表于2020-02-18 01:21 被阅读0次

transformer笔记
Transformer笔记
突破瓶颈，打造更强大的 Transformer
Transformer-XL: 在自注意力模型中处理长距离依赖
手撸一个Transformer
图解Transformer笔记
Transformer 阅读笔记
Transformer量化笔记
Transformer学习资料
Transformer 模型总结

transoformer结构是大名鼎鼎的论文《attention is all you need》提出的，基于seq2seq的encoder deconder框架，其创新之处在于放弃了RNN结构，由于每个位置的attention计算都是相对独立的，因此其方便GPU并行计算，加快训练速度

图1 transformer的总体结构图来自原论文 attention is all you need
左边的红框框起来的部分是encoder,右边红框是decoder，把encoder和decoder都看成一个整体忽略里面的计算就得到了下面的图

简化版transformer

一个大的encoder里实际上包含了几个encoder，decoder也是同理，论文中使用了6个encoder

encoder结构
每个encoder里实际包含两个子层，全连接网络和自注意力，注意6个encoder的权重并不共享

当encoder和decoder都只有一个时transformer长这样

在宏观上self attention可以理解为对输入x1,x2进行信息的杂糅，得到z1,z2

self attention的具体计算过程
self attention是将输入,的向量转化为向量,。
首先要把转化为三个向量,,，要通过转化一个向量为另一个向量可通过向量乘矩阵（，,是向量，是矩阵），上图中, ,,同理，可以看到，和分享同一个，通过共享权重，,实际上已经做了信息交换，得到了,,（1<=t<=单词个数）之后上图的右半部分展示了接下来的计算，依旧以的计算过程为例

假设

对这两个结果除以论文中，，指向量(1<=t<=单词个数)
那么分别得到 14,12，将这两个值经过softmax，得到0.88,0.12,这就是和的值

上述计算过程，把所有向量写成矩阵的形式，就变成了如下的等式

再扩展一下，对所有集合——矩阵