美文网首页
2021-06-27 ch22 注意力机制

2021-06-27 ch22 注意力机制

作者: 柠樂helen | 来源:发表于2021-07-18 21:16 被阅读0次

为什么需要注意力机制?
理解文本、图片信息,能记住的信息是有限的,模型要利用好每一刻有用的部分,把注意力放在某一个部分
seq2seq 存在1、长依赖的梯度消失问题;2、瓶颈问题,decoder前置依赖c的训练好坏,所以需要attention来动态生成c

虽然加入注意力机制会部分缓解长依赖关系,但不会完全解决。

注意力机制:是一个不断更新权重,再加权求和的过程

seq2seq+attn基本框架

语料形式:[原文,译文]
训练过程:
encoder部分:f(x1) -> h1, ..., f(x_n,h_n-1) -> h_n
context向量是动态生成的(划重点!!!),也是连接 encoder 和 decoder 的桥梁和瓶颈
decoder部分:
输出序列 的第一个单词out_1= “<start>”,

  1. g1 = f(out_1)
  2. g1和输入序列每个元素都做内积:g1 * h_1~h_n -> 归一化softmax -> 得到上下文向量c1,即h_1~h_n的加权和:c1 = w1 h1 + w2 h2 +... + wn h_n (w为注意力权重)
  3. decoder部分,先算一个分布:y1 = W_hy·[c1 g1]
  4. 输出序列的下一个单词 out_2 = argmax(softmax(y1)) 找到概率最大的单词

相关文章

  • 2021-06-27 ch22 注意力机制

    为什么需要注意力机制?理解文本、图片信息,能记住的信息是有限的,模型要利用好每一刻有用的部分,把注意力放在某一个部...

  • pytorch中加入注意力机制(CBAM)

    第一步:找到ResNet源代码在里面添加通道注意力机制和空间注意力机制所需库 通道注意力机制 空间注意力机制 在R...

  • Steve Jobs-12-时隔11年后的回归

    阅读章节: Ch22 — Toy Story: Buzz and Woody to the rescue Ch23...

  • 210627承传公园

    2021-06-27 大洋边城承传公园(Heritage Park, Oceanside, California)...

  • 注意力机制学习

    简要介绍: 所谓的注意力机制,其实就是让系统学会注意力-即关注重点信息忽略无关信息。带有注意力机制的系统,不仅可以...

  • transformer模型

    参考文章Transformer注意力机制有效的解释:Transformer所使用的注意力机制的核心思想是去计算一句...

  • 【Transformer理解】

    Transformer是一个利用注意力机制来提高模型训练速度的模型。关于注意力机制可以参看这篇文章[https:/...

  • 不得不说的事儿,Attention和Transformer

    注意力机制和Transformer,All u need is Attention!

  • Selective Kernel Networks(Upgrad

    SENet是对特征图的通道注意力机制的研究,之前的CBAM提到了对特征图空间注意力机制的研究。这里SKNet针对卷...

  • 注意力机制

    (一)注意力机制 接下来的这部分就是序列模型中transformer的重要部分了我门先从注意力机制开始入手。 (1...

网友评论

      本文标题:2021-06-27 ch22 注意力机制

      本文链接:https://www.haomeiwen.com/subject/oilfultx.html