PapeRman #3

作者: 朱小虎XiaohuZhu | 来源:发表于2019-02-01 23:07 被阅读0次

The Evolved Transformer

Authors: David R. So, Chen Liang, Quoc V. Le
Institute: Google Brain

Recent works have highlighted the strengths of the Transformer architecture for dealing with sequence tasks. At the same time, neural architecture search has advanced to the point where it can outperform human-designed models. The goal of this work is to use architecture search to find a better Transformer architecture. We first construct a large search space inspired by the recent advances in feed-forward sequential models and then run evolutionary architecture search, seeding our initial population with the Transformer. To effectively run this search on the computationally expensive WMT 2014 English-German translation task, we develop the progressive dynamic hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments - the Evolved Transformer - demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At big model size, the Evolved Transformer is twice as efficient as the Transformer in FLOPS without loss in quality. At a much smaller - mobile-friendly - model size of ~7M parameters, the Evolved Transformer outperforms the Transformer by 0.7 BLEU on WMT'14 English-German.

最近的工作突出了变换器(Transformer)架构处理序列任务的优势。与此同时,神经架构搜索已经发展到可以超越人类设计模型的程度。这项工作的目标是使用架构搜索来找到更好的变换器架构。我们首先构建了一个大型搜索空间,其灵感来自前馈顺序模型的最新进展,然后运行进化架构搜索,用变换器为我们的初始种群播种。为了在计算成本高昂的 WMT 2014 英德翻译任务中有效地运行此搜索,我们开发了渐进式动态障碍方法,该方法允许我们为更有希望的候选模型动态分配更多资源。在我们的实验中发现的架构 - 演化变换器 - 在四个完善的语言任务中表现出对变换器的持续改进:WMT 2014 英语 - 德语,WMT 2014 英语 - 法语,WMT 2014 英语 - 捷克语和 LM1B。在大型模型中,演化变换器的效率是 FLOPS 中变压器的两倍,而不会降低质量。在一个小得多的 - 适合移动设备 - 模型尺寸为~7M参数的情况下,进化变换器在 WMT'14 英语 - 德语上的表现优于变换器 0.7 BLEU。

相关文章

  • PapeRman #3

    The Evolved Transformer Authors: David R. So, Chen Liang,...

  • Paperman

    最后一班地铁,所有人低着头,我看不清任何一个人的脸孔。我四处张望,无法寻找到可以交汇的目光。人们的面颊纷纷映着白炽...

  • PapeRman #6

    本文描述了一个新的推断智能体动机的方法。该方法基于影响图,这是一种图模型的类型,包含特别的决策和效用节点。图标准可...

  • PapeRman #4

    分布算法目前是强化学习的有趣的发现。以此为基础可以构造更具严格理论支持的强化学习算法。本系列给出最近 Google...

  • PapeRman #5

    对抗健壮性的研究非常具有挑战性。在众多研究方向中,存在一些相应的进展。本篇论文是一个较清楚的整理,有助于大家更好地...

  • 「动画推荐」让我忘不掉的《纸人》

    文/Jove桥薇 第一次看到《paperman》(中文译作“纸人”),那时候还在读大学,我正在去往汽车车站的途中,...

  • 2019-01-17 Paperman #1

    来自 DeepMind 的两篇重要论文,关于免模型规划和一般化的贡献分配研究。值得大家研读。感兴趣的小伙伴 可以私...

  • 2019-01-23 Paperman #2

    PROBABILISTIC SYMMETRY AND INVARIANT NEURAL NETWORKS Auth...

  • 恶意文件夹

    【%你的iapp在这里哦/恭喜你找到了/3/3/3/3/3/3/3/3/3/3/3/3/3/3/3/3/3/3/3...

  • 3+3+3

    九年了,不曾去过,马路那边的刘家村。唱戏,小路~抓蝌蚪,洗衣服,捞水草,漩涡~种满菜的田地,养着奶牛的茅草屋,充满...

网友评论

    本文标题:PapeRman #3

    本文链接:https://www.haomeiwen.com/subject/mabdsqtx.html