一、概念
1.1、大模型是什么
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。
大语言模型 (LLM) 指包含数百亿(或更多)参数的语言模型,这些模型在大量的文本数据上进行训练,例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等,国内的有ChatGLM、文心一言、通义千问、讯飞星火等。
研究界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。而 LLM 的一个杰出应用就是 ChatGPT。
GPT-3 拥有1750 亿参数, PaLM拥有 5400 亿参数。
1.2、大模型的应用
-
自然语言处理领域,它可以帮助计算机更好地理解和生成文本,包括写文章、回答问题、翻译语言等。
-
信息检索领域,它可以改进搜索引擎,让我们更轻松地找到所需的信息。
二、发展历程
20世纪90年代,语言建模的研究,最初采用了统计学习方法,通过前面的词汇来预测下一个词汇。
2003年,深度学习先驱Bengio在论文《A Neural Probabilistic Language Model》中,首次将深度学习的思想融入到语言模型中,使用了更强大的神经网络模型。
2018年左右,研究人员引入了Transformer架构的神经网络模型,通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样。
随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,通常在各种任务中表现显著提升。这时我们进入了大语言模型(LLM)时代。
三、大模型的能力
3.1、涌现能力(emergent abilities)
涌现能力指的是一种令人惊讶的能力,它在小型模型中不明显,但在大型模型中显著出现。可以类比到物理学中的相变现象,涌现能力的显现就像是模型性能随着规模增大而迅速提升,超过了随机水平,也就是我们常说的量变引起了质变。
三个典型的LLM涌现能力:
上下文学习:上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。
指令遵循:通过使用自然语言描述的多任务数据进行微调,也就是所谓的指令微调。LLM能够根据任务指令执行任务,且无需事先见过具体示例,展示了强大的泛化能力。
逐步推理:小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM通过采用"思维链"推理策略,可以利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。
3.2、作为基座模型支持多元应用的能力
这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。多个应用可以只依赖于一个或少数几个大模型进行统一建设。
使用统一的大模型可以极大地提高研发效率,相比于分散的模型开发方式,不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果,是一项本质上的进步。
大模型可以成为AI应用开发的大一统基座模型。
3.3、支持对话作为统一入口的能力
这项能力让大语言模型真正火爆起来,例如基于对话聊天的ChatGPT。
四、大模型的特点
4.1、巨大的规模:
LLM通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。
4.2、预训练和微调:
LLM采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练(无标签数据),学会了通用的语言表示和知识,然后通过微调(有标签数据)适应特定任务,从而在各种NLP任务中表现出色。
4.3、上下文感知:
LLM在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。
4.4、多语言支持:
LLM可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
4.5、多模态支持:
一些LLM已经扩展到支持多模态数据,包括文本、图像和声音。这意味着它们可以理解和生成不同媒体类型的内容,实现更多样化的应用。
4.6、涌现能力:
LLM表现出令人惊讶的涌现能力,即在大规模模型中出现但在小型模型中不明显的性能提升。这使得它们能够处理更复杂的任务和问题。
4.7、多领域应用:
LLM已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域,对人们的日常生活和工作产生了深远的影响。
4.8、伦理和风险问题:
尽管LLM具有出色的能力,但它们也引发了伦理和风险问题,包括生成有害内容、隐私问题、认知偏差等。因此,研究和应用LLM需要谨慎。
五、常见大模型
大语言模型的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止 2023 年 6 月,国内外有超过百种大模型相继发布。按照时间线给出了 2019 年至 2023 年 6 月比较有影响力并且模型参数量超过 100 亿的大语言模型,如下图所示:
常见大模型
5.1、闭源 LLM (未公开源代码)
5.1.1、GPT系列
GPT模型:
名称: GPT(Generative Pre-Training)
研发公司:OpenAI
时间:2018 年
特点:生成式预训练语言模型
本质:通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器
GPTChatGPT:
名称:ChatGPT
研发公司:OpenAI
时间:2022 年 11 月
特点:卓越的会话能力,出色的人类交流能力
本质:一个 LLM 应用,基于 GPT-3.5 和 GPT-4
ChatGPT-3
名称:ChatGPT-3
知识截止日期: 2021 年 9 月
支持最长输入:32,000 个字符
参数: 1750亿
特点:代码编写、数学问题求解、写作建议,丰富的知识储备,逻辑推理能力,多回合对话,上下文理解,支持插件机制。
ChatGPT-4
名称:GPT-4 Turbo, Turbo 就相当于是进阶版的意思
知识截止日期: 2023 年 4 月
支持最长输入:128k,相当于 300 页文本
参数:预估1.8 万亿参数,规模是 GPT-3 的 10 倍以上
使用地址: https://chat.openai.com/
5.1.2、Claude 系列
研发公司: Anthropic 公司(OpenAI 离职人员创建)
时间: 2023 年 3 月 15 日 初版
2023 年 7 月 11 日,更新至 Claude-2
特点:可以完成摘要总结、搜索、协助创作、问答、编码等任务。
参数:预估 860.1 亿
Claude 和 Claude-Instant 两种模型可供选择,其中 Claude Instant 的延迟更低,性能略差,价格比完全体的 Claude-v1 要便宜,两个模型的上下文窗口都是 9000 个token(约 5000 个单词,或 15 页)
使用地址: https://claude.ai/chats
5.1.3、PaLM 系列
研发公司: Google
时间:2022 年 4 月,发布初始版本
2023 年 3 月,公开了 API
2023 年 5 月 ,发布了PaLM 2
本质:PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。前 PaLM 共有 8B、62B、540B 三个不同参数量的模型版本。
参数:预估 340B,训练数据为 PaLM 的 5 倍左右。
使用地址: https://ai.google/discover/palm2/
5.1.4 文心一言
研发公司:百度
时间:2023 年 3 月测试版, 2019 年发布 1.0 版,现已更新到 4.0 版本
参数: 2600 亿
本质:基于飞桨深度学习框架进行训练
5.1.5、星火大模型
研发公司:科大讯飞
时间:2023 年 5 月 6 日 发布,8 月 15 日 升级到 V2.0 版, 2023 年 10 月 24 日 V3.0, 全面对标ChatGPT
特点:多模态能力,已实现图像描述、图像理解、图像推理、识图创作、文图生成、虚拟人合成
参数:1700 亿
参数说明:尽管比 ChatGPT 3.5 模型 1.5 万亿个差着数量级,但 ChatGPT 覆盖了全球主要语言,汉语不到其中 10% 的数据量。所以在现有数据基础上,星火大模型比 ChatGPT 更懂中文。
使用地址: https://xinghuo.xfyun.cn/
5.2、开源LLM
5.2.1、LLaMA 系列
参数: 7B 到 70B
特点:大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展
不需要依赖专有或不可访问的数据集。包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。
开源地址: https://github.com/facebookresearch/llama
5.2.2、GLM系列
研发公司:清华大学和智谱 AI 等
时间:2023 年 6 月发布ChatGLM 2, 2023 年 10 月 27 日发布ChatGLM 3
参数:基于 GLM的ChatGLM 具有 62 亿参数
输入支持:支持 2048 的上下文长度
开源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/
5.2.3、通义千问
研发公司:阿里巴巴
时间: 2023 年 4 月正式发布, 2023 年 8 月,开源了Qwen(通义千问)
参数:70亿(7B)Qwen-7B 和140亿(14B) Qwen-14B
开源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/
5.2.4、Baichuan 系列
研发公司:百川智能
时间:2023 年 10 月 30 日,发布 Baichuan2-192K 大模型
参数:Baichuan-7B 70 亿, Baichuan-13B 130亿
开源地址: https://github.com/baichuan-inc
六、什么是 LangChain
6.1、langchain简介
问题: 尽管大型语言模型的调用相对简单,但要创建完整的应用程序,仍然需要大量的定制开发工作,包括API集成、互动逻辑、数据存储等等
解决: langchain帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。
总结: LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。
6.2、发展历史
作者:Harrison Chase
时间:2022 年 10 月在 github 上开源
发展历史6.3、核心组件
LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起,进而可以自由构建 LLM 应用。
LangChain 主要由以下 6 个核心模块组成:
模型输入/输出(Model I/O):与语言模型交互的接口
数据连接(Data connection):与特定应用程序的数据进行交互的接口
链(Chains):将组件组合实现端到端应用。
记忆(Memory):用于链的多次运行之间持久化应用程序状态;
代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列;
回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列;
网友评论