美文网首页
Transformer Network

Transformer Network

作者: oword | 来源:发表于2021-05-02 19:21 被阅读0次

coursera deeplearning
一、组成


image.png

二、self-attention
self-attention 是 Transformer Network 中比较核心的部分,目的是使文本中某个单词与其他单词产生联系,产生联系后的单词为 z

1、在 self-attention 当中输入单词数和输出单词数一致


v2-ace271b3d7094074aabfc743afd2e841_r.jpg

2、计算过程

a single attention function: image.png image.png

Q : 向量
K : 向量
V : 向量
dk : 向量维度
认为两个向量越相近,相乘值越高

三、Multi-head attention
多头注意力机制就是将多个 single attention function 的结果进行 concat 拼接,拼接后再与一个矩阵相乘,认为不同的输入 z 关注不同距离的注意力 attention

对第 i one head: image.png

Mutil-Head :


image.png image.png

四、Position Encoding
为了体现单词之间的相对关系,使用 Position Encoding , 在 Input Embedding 之后与 Position Encoding 相加

五、encoder & decoder
encoder : 生成 K V 矩阵
decoder : 生成 Q 矩阵
交互如下:


image.png image.png image.png

六、其他
Norm : 使用了归一化但和 BN 不同
Feed Forward : 全连接
N× : 有 N 个 encoder 和 N 个 decoder

参考
https://zhuanlan.zhihu.com/p/46990010
https://www.bilibili.com/video/BV1Di4y1c7Zm?p=7
https://www.bilibili.com/video/BV1L54y1a7Y3

相关文章

网友评论

      本文标题:Transformer Network

      本文链接:https://www.haomeiwen.com/subject/waotdltx.html