关于self-attention

关于self-attention

作者: VanJordan | 来源:发表于2019-05-02 16:29 被阅读0次

关于self-attention
Attention Is All You Need模型细节解析
self-attention
自注意力归因：解释Transformer内部的信息交互
沈卓然：全局注意力模块GSA
Focal Transformers
Character-Level Language Modelin
Modeling Localness for Self-Atte
论文-A Self-Attention Joint Model
Transformer可解释性：注意力机制注意到了什么？

multhead attention就是减少了hiddenSize，然后多弄几组qkv，然后将得到的结果concat起来（代码实现的时候各个W矩阵还是原来不multi-head attention的尺寸，只不过有两次reshape操作通过减少dimSize为headSize来增加batchSize来模拟了多组qkv）。
是否可以用一个全连接（dimSize * dimSize ）来代替attention呢？答案是不可以的，因为这个全连接层相当于对于每一个position的dim信息做了交互，但是并没有根据position的相关程度对position做交互。
是否可以在之前乘一个seqLen * seqLen的矩阵进行position之间的交互，来代替attention呢？答案也是不可以的，因为这个seqLen * seqLen可以看成是一个权值矩阵，对seq的每一个位置的赋予不同的权值，但是这样得到的是根据大量统计规律得到的权值（第一个单词的权值是0.3，第二个单词的权值是0.2）这样是很不靠谱的，语言是多种多样的并不一定是第一个单词一定比第二个单词重要，这样定死的权值非常不靠谱，正确的方法应该是得到了一个句子根据这个句子的具体情况决定其他位置对于当前位置的权重是多少，相当于是layer normalization（根据当前样本决定哪些维度重要哪些维度不同要），而全连接是batch normalization（根据历史统计信息决定哪些维度重要哪些维度不重要）
input乘以矩阵得到qkv是很合理的，对dim信息进行整合，因为哪一个维度的信息重要其实是可以根据历史统计信息得到（也就是全连接层）。
Q*K^其实是比较每一position的相关度，然后过一个softmax得到了这个位置关于所有位置的相似度概率，然后乘以V的时候就是每个position的加权组合。得到这个dim根据不同position的同一dim加权得到的新的dim。

相关文章

关于self-attention
multhead attention就是减少了hiddenSize，然后多弄几组qkv，然后将得到的结果conca...
Attention Is All You Need模型细节解析
该论文提出了transformer的概念，用以替换RNN和CNN 一.关于self-attention Scale...
self-attention
self-attention是什么一个self-attention模块接收n个输入，然后返回n个输出。自注意力机...
自注意力归因：解释Transformer内部的信息交互
论文标题：Self-Attention Attribution:Interpreting Information ...
沈卓然：全局注意力模块GSA
Global Self-Attention Networks for Image Recognition http...
Focal Transformers
Focal Self-attention for Local-Global Interactions in Vis...
Character-Level Language Modelin
1, Self-Attention，用了Transformer architecture 2, Deep， 64个...
Modeling Localness for Self-Atte
这篇文章与Self-Attention with Relative Position Representation...
论文-A Self-Attention Joint Model
1. 简称论文《A Self-Attention Joint Model for Spoken Language...
Transformer可解释性：注意力机制注意到了什么？
©原创作者|FLPPED 论文： Self-Attention Attribution: Interpreting...

网友评论

NLP&NLU

本文标题：关于self-attention

本文链接：https://www.haomeiwen.com/subject/nnynnqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

NLP&NLU

关于我们|服务条款|联系我们|关于self-attention|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！