美文网首页
大语言模型 (LLM)之Transformer

大语言模型 (LLM)之Transformer

作者: duzhongli | 来源:发表于2024-03-05 15:59 被阅读0次

1,Transformer最初来自论文<Attention is all you need>,没查官方中文译名,最初的研究重点是翻译任务

2,Transformer主要适用于序列建模(Sequence Modeling)任务,以语音识别为例,Transformer接收一段说话内容对应的音频作为输入,然后输出该音频对应的文本内容。

3,Transformer已成为了自然语言处理领域绝对主流的网络架构,当前大热的GPT4、LLaMA、Claude、文心一言等大语言模型 (LLM)都以Transformer或者其变种作为主干架构。

4,大体上可分为三类,

回归Transformer模型:GPT-like (also called auto-regressive Transformer models)

自动编码Transformer模型:BERT-like (also called auto-encoding Transformer models)

序列to序列Transformer模型:BART/T5-like (also called sequence-to-sequence Transformer models)

5,原始Transformer是如何工作的:https://huggingface.co/learn/nlp-course/chapter1/4?fw=pt#transformers-are-language-models

6,HuggingFace transformers 中文文档:https://github.com/liuzard/transformers_zh_docs


“我们没有护城河,OpenAI也没有”

google研究员提出看法,核心观点是,即使谷歌全力投入,可能也赢不了这场 AI 竞赛。不仅谷歌赢不了,OpenAI 也赢不了。

原因不是谷歌的能力不行,而是 AI 行业有一些特点,导致这是一个完全竞争行业,"没有护城河",想要获得领先优势和垄断利润,极其困难。

(1)生成式AI的核心技术是开源的,AI的架构和原理都是公开的,不同的只是各家的实现。

(2)AI 模型的替代性很强。模型之间的差异,目前来看不是决定性的。

(3)AI 的核心竞争力在于算力(依赖GPU和机房规模)和训练语料(自己收集)。两者都取决于经济实力。

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

相关文章

网友评论

      本文标题:大语言模型 (LLM)之Transformer

      本文链接:https://www.haomeiwen.com/subject/whgtzdtx.html