美文网首页
吴恩达:一种架构,驾驭一切 - Transformer

吴恩达:一种架构,驾驭一切 - Transformer

作者: 孙庚辛 | 来源:发表于2021-12-25 10:31 被阅读0次

    Transformer 架构正在快速拓展自己的影响范围。

    背景信息

    Transformers 架构最初专为自然语言处理所开发,但目前已经成为深度学习领域的“万金油”。2021 年,人们已经在用它发现药物、识别语音和图像等。

    重要标杆

    Transformers 已经用实际行动证明自己在视觉任务、地震预测、蛋白质分类与合成等领域的优异表现。

    过去一年以来,研究人员开始将其推向更广阔的新领域。

    TransGAN 是一套生成对抗网络,结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。

    Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列,而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络,能够在更短时间内分析更长的视频片段,因此能耗也控制在更低水平。

    Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2,之后冻结了其 self-attention 与 feed-forward 层。在此基础上,他们可以针对不同用例进行模型微调,包括数学、逻辑问题及计算机视觉等。

    DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波,人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。

    新闻背后

    Transformer 于 2017 年首次亮相,之后迅速改变了语言处理模型的设计思路。其 self-attention 机制能够跟踪序列中各元素与其他元素间的关系,不仅可用于分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。

    基于 transformer 的大型语言模型已经建立起新的客观标准,包括在大型未标记语料库上进行模型预训练,利用有限数量的标记示例针对特定任务进行微调等。

    Transformer 架构良好的普适性,可能预示着未来我们将创造出能解决多领域多问题的 AI 模型。

    发展现状

    在深度学习的发展过程中,有几个概念曾经迅速普及:ReLU 激活函数、Adam 优化器、attention 注意力机制,再加上现在的 transformer。

    过去一年的发展证明,这种架构确实具有旺盛的生命力。

    知识星球

    “星空智能对话研学社”

    相关文章

      网友评论

          本文标题:吴恩达:一种架构,驾驭一切 - Transformer

          本文链接:https://www.haomeiwen.com/subject/peldqrtx.html