大语言模型 (LLM)之Transformer

作者: duzhongli | 来源:发表于2024-03-05 15:59 被阅读0次

1，Transformer最初来自论文<Attention is all you need>，没查官方中文译名，最初的研究重点是翻译任务

2，Transformer主要适用于序列建模(Sequence Modeling)任务，以语音识别为例，Transformer接收一段说话内容对应的音频作为输入，然后输出该音频对应的文本内容。

3，Transformer已成为了自然语言处理领域绝对主流的网络架构，当前大热的GPT4、LLaMA、Claude、文心一言等大语言模型 (LLM)都以Transformer或者其变种作为主干架构。

4，大体上可分为三类,

回归Transformer模型：GPT-like (also called auto-regressive Transformer models)

自动编码Transformer模型：BERT-like (also called auto-encoding Transformer models)

序列to序列Transformer模型：BART/T5-like (also called sequence-to-sequence Transformer models)

5，原始Transformer是如何工作的：https://huggingface.co/learn/nlp-course/chapter1/4?fw=pt#transformers-are-language-models

6，HuggingFace transformers 中文文档:https://github.com/liuzard/transformers_zh_docs

“我们没有护城河，OpenAI也没有”

google研究员提出看法，核心观点是，即使谷歌全力投入，可能也赢不了这场 AI 竞赛。不仅谷歌赢不了，OpenAI 也赢不了。

原因不是谷歌的能力不行，而是 AI 行业有一些特点，导致这是一个完全竞争行业，"没有护城河"，想要获得领先优势和垄断利润，极其困难。

（1）生成式AI的核心技术是开源的，AI的架构和原理都是公开的，不同的只是各家的实现。

（2）AI 模型的替代性很强。模型之间的差异，目前来看不是决定性的。

（3）AI 的核心竞争力在于算力(依赖GPU和机房规模)和训练语料(自己收集)。两者都取决于经济实力。

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

网友评论

本文标题：大语言模型 (LLM)之Transformer

本文链接：https://www.haomeiwen.com/subject/whgtzdtx.html

大语言模型 (LLM)之Transformer