transformer

transformer

作者: VanJordan | 来源:发表于2019-04-06 09:43 被阅读0次

最近transformer的结构改进论文挺多的，总结一下。
transformer是一个seq2seq模型。

从RNN谈起

缺点：不能处理过长的句子。
LSTM可以一定程度上缓解这个问题，因为他有记忆单元，以及可以选择什么时候进行遗忘的门控机制，但是还是不能处理过长句子中的依赖问题（大约能记住30-40个词之间的依赖关系，普通的RNN只能记住5-6个词的依赖关系）。
RNN-based model还有一个问题就是encoder的时候不能并行，可以从上面的图中看到，只有当单词x0处理完成了以后，才能处理单词x1。

attention 机制

为了解决长时间长序列之间的单词依赖问题，引入了attention机制，就是在处理句子的时候，不再是一个句子处理完成以后只取最后一个hidden state当做句子的表示丢给decoder，而是每个时刻的hidden state，decoder都可以按其所需对hidden state进行加权访问。
可以看到之前的seq2seq模型decoder的时候只获取了encoder的最后一个状态，加入了attention机制以后就可以获取每一个时间步的信息了。

CNN-based model

可以想到CNN还是可以解决RNN的不足的，因为首先CNN本来就是并行做卷积的因此速度encode速度比RNN快的多，其次CNN可以通过卷积核捕获短期依赖，然后通过叠加层数捕获长期依赖。比如下面的wavenet的处理方式。
既然CNN和Attention机制这么好，那么把两者结合起来岂不是天下无敌？是的这就是Transfomer

Transformers

Transformers中用的是self-attention
首先我们看一下transfomer的整体架构，也是seq2seq模型，普通的transfomer叠了6层，而big transfomer叠了12层。
每一个encoder都是由两部分组成的，self-attention 帮助句子中的每个单词建立依赖关系，而且仅仅是使用self-attention来建立联系的，而feed-forward层是每一个token都是单独向前的（就是一个非线性层），因此不捕获token之间的依赖关系，同时不同token的feed forward可以并行。
decoder 还有一个多于的attention层，帮助decoder集中于输入句子中的特定的部分。

self-attention

根据三个不同的矩阵得到，q,k,v。(当然有一种self-attention是不乘矩阵的直接对embedding的矩阵进行操作，self-attention得到的是embedding * embedding转置* embedding，这样的好处是效果不错也没有额外的参数 )
self-attention的实现方式。

multi-head attention

linear层其实就是一个大矩阵，embedding matrix的维度是seqLen*embedding dim ，而K，Q，V对应的W矩阵(Wk，Wq，Wv)的size都是embedding dim * hidden size那么 KQV矩阵的size 是seqLen * hidden size。multi-head attention和原始的attention的区别是，原始的attention只有一组W矩阵，现在的multi-head attention是有多组，常用的设置是将hidden size 设置为原来的1/n，比如原来的hidden size是512维，有8个head那么现在就有8组W矩阵各自的hiddensize 是64，这样QKV矩阵的维度是64* 512（原来是512*512）但是得到的Z尺寸还是一样的依然是seqLen*512，然后将8个Z concat起来过一个linear（就是乘以一个4096*512的矩阵）得到seqlen*512的最终的state。(那个 hidden state变成1/n也不一定是效果最好的，你可以设置成其他值)
这个操作和CNN里面使用多个卷积核是一样一样的。
可以看到不同的head注意到不同的位置，相当于不同卷积核捕获不同的特征。

表示序列的位置信息使用Positional Encoding

因为仅仅使用self-attention的话就相当于是一个词袋模型，所以我们需要引入表示位置信息的编码。
看到源代码里面positional encoding实现方式，是一个比较复杂的三角函数，naacl18上有一篇文章论文使用了相对位置的positional encoding效果提升了0.6个bleu，总之这个positional encoding是一个比较ugly的东西，大家都想改进他，但是却苦于没有好的方法。

Transformer中的残差连接

在encoder的每个sub layer之间（一个self-attention或者一个feed forward算一个sublayer）是有残差连接的，他们大概长这样
所谓的残差连接实现的时候只不过是把原来的x1保存下来，然后做layernorm的时候和下面模块中传递进来的z加起来即可。
在decoder中同样也有残差连接

decoder部分

encoder的输入是单词的embedding，输出是一组attention的K 矩阵和V矩阵，这样decoder可以用到这个attention矩阵就可以更好的获取输入句子信息。（embedding matrix 各自乘以一个矩阵得到K和V）
可以看到decoder的时候，也是一个时间步一个时间步运行的，因此decoder的时候没有加速的（还是自回归模型，现在比较活的非自回归模型就是解决这个问题的，但是效果还是不能比），而encoder的时候是并行的，K和V矩阵是最终6层以后得到的embedding各自乘以一个矩阵K和V
值得注意的是decoder中的self-attention机制和是不同的，因为生成新的单词的时候只能看到前面已经生成过单词的信息，因此需要用mask挡住后面的位置（设置为-inf）
encoder-decoder attention 层的work方式和multihead self-attention方式是很像的，只不过使用的Queries矩阵来自下面层的输入，而Keys和Values Matrix用的是的encoder产生的。
最后的softmax层:

相关文章

网友评论

本文标题：transformer

本文链接：https://www.haomeiwen.com/subject/udaliqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|transformer|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！