Chatgpt的前世今生

作者: Areusure | 来源:发表于2023-09-03 22:15 被阅读0次

将军在上之男昭女惜重生三世千年孽缘
人死，并非如灯灭……
前世今生来世缘
iOS Device ID 的前世今生
何世许今生
前生不欠今生不见
今生的钥匙，前世的锁！
苹果新贵Swift之前世今生
一扇门
忏悔

今天的我的主要构成

NLP（自然语言处理）

NLP 的全称是 Natural Language Processing（自然语言处理）。它是人工智能的一个重要领域。顾名思义，该领域研究如何处理自然语言。常见的 NLP 任务有机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、关系抽取、阅读理解等等。

NLP有两个核心的任务，分别是NLU自然语言理解（Natural Language Understanding）和NLG自然语言生成（Natural Language Generation）。NLU聚焦于使机器理解自然语言，NLG则是机器将非语言格式的数据转换为人类可以理解的自然语言。

自然语言理解是人工智能领域皇冠上的明珠，NLP是人工智能赋能社会和赋能行业的硬核科技。“如果我们能够推进自然语言处理，就可以再造一个微软。”比尔·盖茨对自然语言处理在人工智能时代及未来社会发展中的重要性，给予中肯的定义。

从数学角度来说，NLP可以归为序列建模问题。所谓序列建模，就是要建模产生这个序列的概率分布，或者严格上说是其中的一些条件概率。Transformer的思想是开创性的，对序列建模领域有着深远的影响。Transformer被广泛应用于NLP的各个领域，后续在NLP领域全面开花的语言模型如GPT系列、BERT等，都是基于Transformer。Transformer的出色表现也促使许多人将其应用在计算机视觉领域，相比于传统的卷积神经网络(Convolutional Neural Networks,CNN)，视觉Transformer（Vision Transformers，ViT）依靠出色的建模能力，在多项视觉任务上取得了优异的性能。

#2

Transformer

在Transformer面世之前，NLP领域的主流模型是循环神经网络RNN（Recurrent Neural Network）及其各种变体。RNN及其各种变体模型有两大问题：

如果传递距离过长就会伴随梯度消失、梯度爆炸和遗忘问题，因此不能有效学习长距离的依赖关系；

在处理序列时必须逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理，这样无法同时并行训练，导致训练模型时间过长。

Transformer是这篇论文里提出的一种模型架构，Transformer基于Encoder-Decoder结构并加入了位置编码及Self-Attention机制。通过Self-Attention机制使得每个序列中的每个词都有全局的语义信息，因此Transformer处理长距离的依赖关系比RNN要好很多；同时由于对输入叠加了Positional Encoding，因此能一次接收整个句子中的所有词作为输入，并行计算后训练的时间相比RNN及其变体也大大缩短。作者将其用于NLP领域中的机器翻译，Transformer在英语-德语和英语-法语相关测试中夺得了SOTA（State-of-the-Art，最先进的）结果，且训练成本相对于以前的一些最好模型要少很多，只是它们的一小部分。

转自知乎https://zhuanlan.zhihu.com/p/607581437