美文网首页
Day 2574:学习

Day 2574:学习

作者: kafkaliu | 来源:发表于2024-02-12 21:33 被阅读0次

    智谱清言,阅读 Attention Is All You Need 这篇论文

    提示语:

    1. 这篇文章的核心观点

    (详细的不贴了)这篇论文提出了一种新的深度学习模型——Transformer, 完全基于自注意力机制,在序列转序列任务上取得了新的最优结果,同时计算速度更快,训练时间更短

    1. Transformer 模型与之前基于 RNN 和 CNN 模型相比有什么优势?

    更高的并行计算能力、更长的最大路径长度、更低的计算复杂度、更快的训练速度等

    1. Transformer 架构为什么比 RNN、CNN 有更高的并行计算能力?

    Transformer 采用自注意力机制,每个位置只需要访问一次上下文信息,每个位置可以并行计算,RNN 是顺序计算。Transformer 中的所有操作都基于矩阵运算,可以更高效地利用 GPU。CNN 卷积操作涉及窗口元素的顺序计算

    相关文章

      网友评论

          本文标题:Day 2574:学习

          本文链接:https://www.haomeiwen.com/subject/iorjadtx.html