读论文

作者: 小小程序员一枚 | 来源:发表于2020-11-06 20:02 被阅读0次

题目:Transformer-XL: Attentive Language Models
Beyond a Fixed-Length Context
摘要:Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。因此,我们提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。具体来说,它是由片段级的循环机制全新的位置编码策略组成的。我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。
模型


1)片段级递归机制:上面两图分别是传统的transformer和transformer-XL模型的对比,可以看到,tansformer-XL模型在计算下一片段的隐藏层状态时用到了上一片段的隐藏层信息,这样可以捕获更长距离的上下文信息
2)相对位置编码方案:




上面分别是原始的绝对位置编码和改进后的相对位置编码,将Uj替换成了Ri,j,Ri,j描述了i和j之间的相对距离

相关文章

  • 断的学问(0):快速判断一篇论文是否需要?

    ‍读书要读好书,‍‍阅读论文‍‍也要读‍‍好的论文,‍‍好的论文是什么样的论文呢?‍‍ 我们经常听‍‍到专家‍‍跟...

  • 早晚读书1000/233-李沐老师已在GitHub 开源了《深度

    在开篇之作如何读论文中,沐神总结了读论文的一种套路: 论文结构通常分为六个部分,要按照“读三遍”的方法快速掌握论文...

  • 新手论文阅读指南

    (真正的读论文从 10 才开始,但前九步也必不可少) 如何读论文? 在开始看论文之前,找论文也是非常关键的一步,只...

  • 读论文

    tensorflow版本问题:https://blog.csdn.net/weixin_44038165/arti...

  • 读论文

    Python菜鸟教程 :https://www.runoob.com/python/python-lists.ht...

  • 读论文

    题目:Transformer-XL: Attentive Language ModelsBeyond a Fixe...

  • 读论文

    闺女寄回一大包衣服,夹杂着有两本期刊,闺女有论文发表于此。下午调休在家,有时间翻翻看看,几点感受:一是专业的就是专...

  • 读论文

    坚持每天读一篇论文已经六天了,发现大学教授和一线教师的理论水平确实不同。高中教师又优于初中教师。当然,我只看了这几...

  • 6 月阅读

    我应该读论文吗?

  • 在自闭中学托福3.5

    keep on 读论文 平平淡淡

网友评论

      本文标题:读论文

      本文链接:https://www.haomeiwen.com/subject/gictbktx.html