美文网首页
RealFormer

RealFormer

作者: Valar_Morghulis | 来源:发表于2022-05-10 10:11 被阅读0次

    Residual Attention Layer Transformers

    ACL-IJCNLP 2021

    https://arxiv.org/abs/2012.11747

    Submitted on 21 Dec 2020 (v1), last revised 10 Sep 2021 (this version, v3)

    苏老师解读:https://kexue.fm/archives/8027   (评论区值得一读)

    https://github.com/google-research/google-research/tree/master/realformer

    Transformer是现代NLP模型的支柱。在本文中,我们提出了RealFormer,这是一种简单而通用的技术,用于创建剩余注意层变换器网络,该网络在广泛的任务中(包括蒙面语言建模、粘合、团队、神经机器翻译、WikiHop、HotpotQA、自然问题和OpenKP)的表现明显优于规范变换器及其变体(BERT等)。我们还从经验上观察到,RealFormer可以稳定训练,并导致注意力更稀疏的模型。RealFormer的源代码和预先培训的检查点可以在这个https URL上找到。

    相关文章

      网友评论

          本文标题:RealFormer

          本文链接:https://www.haomeiwen.com/subject/vfhlurtx.html