大语言模型综述
https://arxiv.org/abs/2303.18223
摘要
自从 20 世纪 50 年代提出图灵测试以来,人类就开始探索机器对语言智能的掌握。语言本质上是一个错综复杂的人类表达系统,受语法规则支配。开发用于理解和掌握语言的有能力的人工智能 (AI) 算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练 Transformer 模型提出了预训练语言模型 (PLM),在解决各种自然语言处理 (NLP) 任务方面显示出强大的能力。由于研究人员发现模型缩放可以带来性能提升,因此他们通过将模型尺寸增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提升,而且还显示出一些在小规模语言模型(例如 BERT)中不存在的特殊能力(例如,上下文学习) ).为了区分参数规模的差异,研究界为具有显着规模(例如,包含数百或数千亿个参数)的 PLM 创造了术语: 大型语言模型 (LLM)。近年来,LLMs的研究在学术界和工业界得到了很大的推进,其中一个显着的进展就是ChatGPT(基于LLMs开发的强大的AI聊天机器人)的推出,引起了社会的广泛关注。 LLM 的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景、主要发现和主流技术来回顾 LLM 的最新进展。特别是,我们关注 LLM 的四个主要方面,即预训练、自适应调优、应用和能力评估。此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。该调查提供了对 LLM 文献的最新回顾,这对研究人员和工程师来说都是有用的资源。
精选图片
Fig. 1. 近年来已有的大型语言模型(大于10B)的时间线。我们用黄色标记开源 LLM。 Table -1 近年大型语言模型(本次调研大于10B)统计,包括容量评估、预训练数据规模(无论是token个数还是存储量)、硬件资源成本。这里的“Adaptation”表示模型是否进行了后续微调:IT表示指令调优,RLHF表示带有人工反馈的强化学习。 “Evaluation”表示该模型是否在其原始论文中以相应的能力进行了评估:ICL表示in-context learning,CoT表示chain-of-thought。 “*”表示最新的公开可用版本。 Fig. 4. An illustration of instance formatting and two different methods for constructing the instruction-formatted instances.结论
在本次调查中,我们回顾了大型语言模型 (LLM) 的最新进展,并介绍了理解和利用 LLM 的关键概念、发现和技术。我们专注于讨论大型模型(即尺寸大于 10B),而排除了现有文献中已充分涵盖的早期预训练语言模型(例如 BERT 和 GPT2)的内容。特别是,我们的调查讨论了 LLM 的四个重要方面,即预训练、适应调整、应用和评估。对于每个方面,我们都强调了对 LLM 成功至关重要的技术或发现。此外,我们还总结了开发 LLM 的可用资源,并讨论了复制 LLM 的重要实施指南。本调查试图涵盖有关 LLM 的最新文献,并为研究人员和工程师提供有关该主题的良好参考资源。
HuggingGPT:使用 ChatGPT 及 HuggingFace 中的模型解决 AI 任务
https://arxiv.org/abs/2303.17580
摘要
解决具有不同领域和模式的复杂人工智能任务是迈向高级人工智能的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出非凡的能力,我们提倡 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,并且语言可以作为通用接口来赋能这些模型。基于这一理念,我们提出了 HuggingGPT,这是一个利用 LLM(例如 ChatGPT)连接机器学习社区(例如 Hugging Face)中的各种模型以解决 AI 任务的框架。具体来说,我们在收到用户请求时使用 ChatGPT 进行任务规划,根据 Hugging Face 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和Hugging Face丰富的AI模型,HuggingGPT能够覆盖众多不同模态和领域的复杂AI任务,并在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,为新的人工智能领域铺平了道路。
精选图片
Figure 1: 语言充当 LLM(例如 ChatGPT)的接口,连接众多 AI 模型(例如 Hugging Face 中的模型)以解决复杂的 AI 任务。在这个概念中,LLM 充当控制器,管理和组织专用模型。 LLM首先根据用户请求规划任务列表,然后为每个任务分配专用模型。专用模型执行任务后,LLM 收集结果并返回用户。 Figure 2: HuggingGPT 概述。以LLM(如ChatGPT)为核心控制器,专用模型为执行者,HuggingGPT的工作流程分为四个阶段: 1)任务规划:LLM将用户请求解析为任务列表,并确定执行顺序和资源依赖关系; 2)模型选择:LLM根据专用模型在Hugging Face上的描述,为任务分配合适的模型; 3) 任务执行:混合端点上的专用模型根据任务顺序和依赖关系执行分配的任务; 4)响应生成:LLM整合不同专用模型的推理结果,生成工作流日志摘要,返回给用户。 image.png局限性
HuggingGPT 不可避免地受到一些限制。我们最关心的限制之一是效率。效率的瓶颈在于大型语言模型的推理能力。对于每一轮用户请求,HuggingGPT 都需要在任务规划、模型选择和响应生成阶段至少与大型语言模型进行一次交互。这些交互极大地增加了响应延迟并导致用户体验下降。二是最大上下文长度的限制。受 LLM 可以接受的最大令牌数限制,HuggingGPT 还面临最大上下文长度的限制。我们已经使用了对话窗口,只在任务规划阶段跟踪对话上下文来缓解这个问题。三是系统稳定性,包括两个方面。一种是在大型语言模型的推理过程中发生的混乱。大型语言模型在推理时偶尔会不符合指令,输出格式可能会违背预期,导致程序工作流程出现异常。第二个是 Hugging Face 推理端点上托管的专家模型的不可控状态。 Hugging Face 上的专家模型可能会受到网络延迟或服务状态的影响,导致任务执行阶段出现错误。
结论
在本文中,我们提出了一个名为 HuggingGPT 的系统来解决 AI 任务,以语言作为接口将 LLM 与 AI 模型连接起来。我们系统的原理是LLM可以看作是管理AI模型的控制器,可以利用Hugging Face等ML社区的模型来解决用户的不同需求。通过利用 LLM 在理解和推理方面的优势,HuggingGPT 可以剖析用户的意图并将任务分解为多个子任务。然后,基于专家模型描述,HuggingGPT 能够为每个任务分配最合适的模型,并整合来自不同模型的结果。通过利用来自机器学习社区的众多人工智能模型的能力,HuggingGPT 在解决具有挑战性的人工智能任务方面展示了巨大的潜力。此外,我们也注意到近来LLMs的快速发展给学术界和工业界带来了巨大的影响。我们还希望我们的模型设计能够激发整个社区的灵感,并为 LLM 迈向更高级的 AI 铺平新道路。
Pythia: 一个用于分析 LLM 训练和伸缩的套件
https://arxiv.org/abs/2304.01373
摘要
大型语言模型 (LLM) 如何在训练过程中发展和演变?这些模式如何随着模型的扩展而变化?为了回答这些问题,我们介绍了 Pythia,这是一套包含 16 个 LLM 的套件,所有这些都以完全相同的顺序在公共数据上进行训练,参数大小从 70M 到 12B 不等。我们为 16 个模型中的每一个提供了 154 个检查点的公共访问权限,以及下载和重建其确切训练数据加载器以供进一步研究的工具。我们希望 Pythia 可以促进更多领域的研究,在本文中我们提出了几个案例研究,包括记忆方面的新结果、术语频率对few-shot 的影响以及减少性别偏见。我们证明,这种高度受控的设置可用于产生对 LLM 及其训练动态的新认知。训练好的模型、分析代码、训练代码和训练数据可以在https://github.com/EleutherAI/pythia 找到。
精选图片
Table 1. Pythia 套件中的模型并超参数选择。有关超参数的完整列表,请参阅附录 E。模型是根据参数总数命名的,但对于大多数分析,我们建议人们使用非Embedding参数的数量作为“大小”的度量。标记为“等效”的模型具有相同的架构和非Embedding参数的数量。 Table 2. 常用模型以及它们如何根据我们的要求进行评分。更多信息可以在附录 F.1 中找到。结论
我们发布了 Pythia,这是一套语言模型分析套件,通过在多个数量级的规模上使用一致的数据排序和模型架构进行训练,关于性别去偏见、记忆和术语频率效应的创新型分析和结果,我们展示了如何使用 Pythia 以前所未有的详细程度对 LLM 进行实验分析。我们希望这些分析将激发进一步的后续工作,展示预训练数据如何推动更复杂任务中能力的获取和出现。 这些模型及其数据集工具对不同行业的研究者都有广泛的适用性。 我们推荐使用该套件作为 LLM 创新型实验的分析工具。
GPTEval:使用 GPT-4 进行 NLG 评估,具有更好的人类一致性
https://arxiv.org/abs/2303.16634
摘要
自然语言生成 (NLG) 系统生成的文本质量很难自动衡量。传统的基于参考的指标,如 BLEU 和 ROUGE,已被证明与人类判断的相关性相对较低,特别是对于需要创造力和多样性的任务。最近的研究建议使用大型语言模型 (LLM) 作为 NLG 评估的无参考指标,这有利于适用于缺乏人类参考的新任务。然而,这些基于 LLM 的评估器的人类对应性仍然低于中型神经评估器。在这项工作中,我们提出了 GPTEVAL,这是一个使用具有思维链 (CoT) 和表单填写范式的大型语言模型的框架,用于评估 NLG 输出的质量。我们试验了两个生成任务,文本摘要和对话生成。我们表明,以 GPT-4 作为骨干模型的 GPTEVAL 在摘要任务上与人类的 Spearman 相关性达到 0.514,大大优于以前的所有方法。我们还提出了对基于 LLM 的评估器行为的初步分析,并强调了基于 LLM 的评估器对 LLM 生成的文本有偏见的潜在问题。
精选图片
Figure 1: GPTEVAL的整体框架。我们首先向 LLM 输入任务介绍和评估标准,并要求它生成详细评估步骤的 CoT。然后我们使用提示和生成的 CoT 来评估表单填写范例中的 NLG 输出。最后,我们使用输出分数的概率加权求和作为最终分数。结论
在本文中,我们提出了 GPTEVAL,这是一个使用 LLM 和思想链 (CoT) 来评估生成文本质量的框架。我们对两个 NLG 任务(文本摘要和对话生成)进行了广泛的实验,表明 GPTEVAL 可以胜过最先进的评估器并实现更高的人类对应关系。我们还提出了对基于 LLM 的评估者行为的初步分析,并强调了基于 LLM 的评估者对 LLM 生成的文本有偏见的潜在问题。我们希望我们的工作能够激发更多关于使用 LLM 进行 NLG 评估的研究,并提高人们对使用 LLM 作为评估者的潜在风险和挑战的认识。
∞-Diff: Infinite Resolution Diffusion with Subsampled Mollified States
https://arxiv.org/abs/2303.18242
摘要
我们介绍了 ∞-Diff,一种直接对无限分辨率数据进行操作的生成扩散模型。通过在训练期间随机采样坐标子集并学习对这些坐标处的内容进行去噪,可以学习到允许以任意分辨率采样的连续函数。与其他最近的无限分辨率生成模型相比,我们的方法直接对原始数据进行操作,不需要对上下文进行潜在向量压缩,使用超网络,也不依赖于离散组件。因此,我们的方法实现了显着更高的样本质量,较低的 FID 分数证明了这一点,并且能够有效地扩展到比训练数据更高的分辨率,同时保留细节。
精选图片
Figure 1: We define a diffusion process in an infinite dimensional image space by randomly sampling coordinates and training a model parameterised by neural operators to denoise at those coordinates. Figure 4: ∞-Diff 使用分层架构,在顶层对不规则采样函数进行操作以有效捕获精细细节,并在其他级别对固定网格进行操作以捕获全局结构。这种方法允许缩放到复杂的高分辨率数据。结论
总之,我们发现具有由神经算子表示的过渡密度的软态扩散模型能够生成高质量的无限维样本。尽管在训练期间只观察像素子集,但样本质量与同时在所有像素上训练的最先进模型相比具有竞争力。先前的无限维方法使用潜在条件神经场;我们的研究结果表明,直接对原始数据进行操作的稀疏神经运算符是一种有效的替代方案,它通过不独立处理所有坐标来提供显着优势,FID 分数显着降低就是证明。未来的工作将受益于改进的神经算子,这些算子可以在更高的稀疏度下有效地运行,以进一步提高我们方法的效率。
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
https://arxiv.org/abs/2303.16727
摘要
规模是构建强大的基础模型的主要因素,该模型可以很好地推广到各种下游任务。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频屏蔽自动编码器 (VideoMAE) 是一种可扩展且通用的自监督预训练器,用于构建视频基础模型。我们使用核心设计在模型和数据中扩展 VideoMAE。具体来说,我们提出了一种用于高效预训练的双掩码策略,其中编码器对视频标记的子集进行操作,解码器处理视频标记的另一个子集。尽管 VideoMAE 由于编码器中的高掩蔽率而非常有效,但掩蔽解码器仍可以进一步降低整体计算成本。这使得能够在视频中高效地预训练十亿级模型。我们还使用渐进式训练范式,包括对不同的多源未标记数据集进行初始预训练,然后对混合标记数据集进行后期预训练。最后,我们成功地训练了一个具有十亿参数的视频 ViT 模型,它在 Kinetics 数据集(K400 上为 90.0%,K600 上为 89.9%)和 Something-Something(68.7% on V1 和 V2 上的 77.0%)。此外,我们在各种下游任务上广泛验证了预训练视频 ViT 模型,证明了其作为通用视频表示学习器的有效性。
精选图片
Figure 1. VideoMAE with dual masking. To improve the overall efficiency of computation and memory in video masked autoencoding, we propose to mask the decoder as well and devise the dual masking strategy. Like encoder, we also apply a masking map to the deocoder and simply reconstruct a subset of pixel cubes selected by the running cell masking. The final reconstruction loss only applies for the invisible tokens dropped by the encoder.Vision Transformers with Mixed-Resolution Tokenization
https://arxiv.org/abs/2304.00287
摘要
Vision Transformer 模型通过将输入图像划分为大小相等的空间规则网格来处理输入图像。Transformers 最初是在自然语言序列上引入的,其中每个标记代表一个子词——任意大小的原始数据块。在这项工作中,我们通过引入一种新颖的图像标记化方案将这种方法应用于 Vision Transformers,将标准统一网格替换为混合分辨率的标记序列,其中每个标记代表一个任意大小的补丁。使用四叉树算法和一种新颖的显着性评分器,我们构建了一个补丁马赛克,其中以低分辨率处理图像的低显着性区域,将更多模型的容量路由到重要的图像区域。使用与 vanilla ViTs 相同的架构,我们的 Quadformer 模型在控制计算预算时在图像分类方面实现了显着的准确性提升。代码和模型可在 https://github.com/TomerRonen34/mixed-resolution-vit 上公开获得。
精选图片
Figure 1. Quadformer。我们根据显着性评分器将图像拆分为混合分辨率马赛克,并采用具有 2D 位置嵌入的标准 Transformer 架构。 Figure 3. 不同补丁评分器对四叉树标记化的影响。更好的显着性估计器 → 重要区域的分辨率更高。像素模糊评分器通常用于图像压缩,因为它专注于高频细节。我们基于特征的评分器使用神经表征来估计补丁的显着性。 oracle scorer 使用 Grad-CAM 显着性估计算法。 Figure 5. 基于特征的补丁评分器。补丁表示与其模糊对应物之间的 MSE 估计因降低补丁分辨率而导致的语义信息损失结论
我们为 Vision Transformers 提出了一种新颖的标记化方案,用混合分辨率的标记序列替换标准的统一补丁网格,其中每个标记代表任意大小的补丁。我们将 Quadtree 算法与基于特征的新型显着性评分器相结合,以创建混合分辨率的补丁马赛克,使这项工作成为第一个使用 RGB 图像的 Quadtree 表示作为神经网络输入的工作。通过图像分类实验,我们展示了标准 Vision Transformer 模型通过微调适应混合分辨率标记化的能力。在控制补丁或 GMAC 的数量时,我们的 Quadformer 模型与普通 ViT 相比实现了显着的准确性提升。尽管我们不使用专用工具来加速推理,但 Quadformers 在控制推理速度时也显示出收益。我们相信,未来的工作可以成功地将混合分辨率 ViT 应用于其他计算机视觉任务,尤其是那些涉及具有异构信息密度的大图像的任务,包括图像生成和分割等具有密集输出的任务。
网友评论