美文网首页
transformer-xl

transformer-xl

作者: 我想了很多事 | 来源:发表于2019-10-27 23:35 被阅读0次

Transformer智能学习具有固定长度内容的建模局限性,新网络Transformer-XL(超长)包含片段级递归机制和新颖的位置编码机制,从而捕获长期依赖性。

Transformer-XL引入递归机制,重用之前片段中获得的隐藏状态,而不是每次都要从头开始计算每个片段的隐藏状态。重用的隐藏状态当作当前片段的存储器,构成前一片段和当前片段的连接。

除了使用前片段的隐藏状态,Transformer-XL还使用相对位置编码,而不是绝对位置编码,这是因为不引起时间混淆情况下重用状态。

因此,Transformer-XL能够获得更多的相对有效上下文长度(Relative Effective Context Length,RECL)。

相关文章

网友评论

      本文标题:transformer-xl

      本文链接:https://www.haomeiwen.com/subject/cvxvvctx.html