大模型名词手册

作者: 早睡早起的黑猫 | 来源:发表于2023-09-26 14:09 被阅读0次

Day10-输出超级学习力
Weblogic WTC 开发
【模型↔关系思考法】如何在一个全新的、陌生的领域快速成为专家？
《申报》与杨乃武案|新传土拨鼠团队名词解释200配套拓展
命名和常量规约（java开发规范阿里巴巴）
网络通讯协议-TCP/IP协议
内存模型的若干思考
【TRIZ名词】物-场模型
【TRIZ名词】发明问题模型
🔝(1/2-事件模型)[神策]数据模型 · Sensors An

本手册列出了高频出现的大模型相关名词的英文名称、中文名称及释义，希望对同学们学习大模型有所帮助

答案来自于文心一言，并对描述进行了改写和优化

大语言模型 Large Language Model

使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。

提示词 Prompt

用于引导模型生成特定文本或响应的输入提示。提示词通常是一种自然语言文本，用于激发模型生成所需的内容。

例如，在一个问答系统中，当用户输入一个问题时，提示词可以是问题的文本内容。模型会根据这个提示词生成一个答案。又比如，在一个文本生成任务中，提示词可以是一个标题、一段描述或其他类型的文本输入。模型会根据提示词生成相应的文本输出。

提示词的设计和使用对于大语言模型的性能和效果至关重要。一个好的提示词应该能够清晰地表达所需生成文本的主题、内容和格式，以便模型能够准确地理解要求并生成合适的响应。同时，提示词还应当符合模型的接受能力和限制条件，以确保生成的文本质量较高且符合预期。

预训练 Pre-Training

在一个大规模的无标签数据集上训练模型，使其能够学习语言的基本模式和特征，以适应各种自然语言处理任务。

在预训练阶段，模型会接收到大量的文本数据，例如从互联网上抓取的大量文章、网页和社交媒体帖子等。这些数据没有被标记或分类，但模型需要从中学习如何表达和理解文本。

预训练通常使用深度学习技术，例如自回归模型（如GPT系列）、自编码器（如BERT系列）等。这些模型通过预测文本中的下一个单词或通过尝试恢复输入的文本等方法，学习语言模式和特征。

预训练的目标是使模型能够更好地理解文本，并能够生成和理解更复杂的语言结构。这样，当模型在执行特定任务时，例如分类文本或回答问题时，它就可以利用已经学到的知识来提高任务的性能。

在预训练之后，模型会被用来执行特定任务，例如情感分析、问答、翻译等。在这些任务上，模型需要进行微调（fine-tuning），以便更好地适应特定任务的要求。微调可以是模型在较小规模的有标签数据集上进行训练的过程，以提高模型在特定任务上的性能。

有监督精调（Supervised Fine-Tuning，SFT）

在大规模无标签数据集上进行预训练后，在特定任务的小规模有标签数据集上进行微调，以提高模型在特定任务上的性能。

在SFT过程中，模型会利用预训练阶段学到的知识，以及有标签数据集中的标注信息，对模型进行微调。这样可以使得模型更好地适应特定任务的要求，提高模型在特定任务上的准确性和泛化能力。

SFT通常使用深度学习技术，例如自回归模型（如GPT系列）、自编码器（如BERT系列）等。这些模型可以通过有标签的数据集进行微调，以便更好地适应特定任务的要求。

基于⼈类反馈的强化学习 RLHF

以强化学习方式依据人类反馈优化语言模型（Reinforcement Learning from Human Feedback）的一种生成领域的新训练范式。它涉及到了多个模型的训练过程以及部署的不同阶段。

在RLHF训练过程中，首先需要预训练一个语言模型，然后收集数据并训练一个收益模型。接下来，使用强化学习微调上述的语言模型。具体来讲，人工会针对多个模型给出的不同答案进行排序，然后基于这些排序建立一个“奖惩机制”，再用强化学习继续训练，以逐步优化模型的表现。

RLHF的目的是让语言模型能够根据人类反馈来调整自己的答案，以提高模型的可靠性和实用性。

提示词工程 Prompt Engineering

对prompt精⼼设计和优化，以获得更好、更准确或更有⽤的输出

指令学习 Instruction Tuning

通过给定指令或指导来训练模型，使其按照给定的指导执行特定任务的技术方法。它通常结合强化学习的方法，通过奖励模型正确执行指导的任务，从而优化生成的结果。在技术系统性能和效率的改善中，Instruction Tuning 通常涉及对技术系统中的硬件和软件组件进行优化，以实现更快的执行速度、更低的功耗和更好的可靠性。

上下⽂学习 In-context Learning

in-context learning相⽐指令学习引⼊了前置信息，⽅便模型理解任务要什么做、为什么这么做。前⽂中『分类-静态代码扫描』、『匹配-测试⽤例匹配』都使⽤了in-context learning技巧，其中的示例称为shots，因此狭义上in-context learning也可以称为few-shots，zero-shot则指没有示例只有指令的prompt

思维链（Chain-of-Thought，CoT）

⼤模型中的思维链技术是⼀种改进的提示策略，⽤于提⾼LLM在复杂推理任务中的性能，例如算术推理、常识推理和符号推理。它结合了中间推理步骤，将这些步骤作为提示引⼊模型，帮助模型更好地理解和解决复杂问题。这种技术使得模型在解决问题时能够更准确地给出答案，并且能够提供详细的推理过程。

除了few-shots的思维链过程，还有⼀种zero-shot的思维链过程，即在复杂任务最后加上『请你⼀步步思考』或『Let's think step by step』或类似精⼼设计的引导词，引导模型逐步思考。

温度 temperature

• 描述：温度是⼀个控制模型输出随机性的参数。它影响模型在选择下⼀个词时的确定性。

• ⼯作原理：

当温度接近0时，模型更可能选择最有可能的词，使输出更加确定性。

当温度增加（例如，设置为1或更⾼），模型的输出会变得更加随机。

应⽤场景：如果你希望模型的输出更加多样化和创意，可以增加温度。如果你希望输出更加⼀致和准确，可以降低温度。

知识增强

在设计prompt时通过引⼊外部知识库或数据源来增强模型的知识，通常涉及将结构化的知识（如知识图谱）与prompt结合，使模型能够更好地理解和⽣成与这些知识相关的内容，如问及特定的历史事件或科学事实时，知识增强可以帮助模型提供更准确和详细的答案。

LoRA

LoRA（Low-Rank Adaptation of Large Language Models，大型语言模型的低秩适应）是微软研究员提出的一种新颖技术，旨在解决微调大型语言模型的问题。

对于拥有数十亿参数的强大模型，例如GPT-3，对其进行微调以适应特定任务或领域的成本非常高。LoRA提议冻结预训练模型的权重，并在每个Transformer块中注入可训练层（称为秩分解矩阵）。这大大减少了可训练参数的数量和GPU内存需求，因为大部分模型权重不需要计算梯度。

通过专注于大型语言模型的Transformer注意力块，LoRA的微调质量与完整模型的微调相当，同时速度更快，计算需求更低。尽管LoRA最初是为大型语言模型提出的，但这种技术也可以应用在其他地方。

LoRA具有训练速度更快、计算需求更低、训练权重更小的优点。同时，LoRA可以与其他技术结合使用，例如Dreambooth，使训练更快、只需少量图像即可实现目标学习，还可以调整文本编码器以获得更高的主题保真度。总之，LoRA为微调大型语言模型提供了一种快速、低成本的解决方案，使模型能够更容易地适应新的领域或数据集。

Day10-输出超级学习力
复盘昨天： 1､天赋：能力天赋、意愿天赋） 2､sign模型四大类知识： 3､事实类、概念类（名词、模型、原则、原...
Weblogic WTC 开发
缩略名词 WTC：Weblogic Tuxedo Connector 资料 WTC程序设计手册：https://d...
【模型↔关系思考法】如何在一个全新的、陌生的领域快速成为专家？
核心基础：模型行业特性，行业名词术语（模型），行业前规则，行业风险首先搞懂行业内独有的一些专业名词术语的含义，...
《申报》与杨乃武案|新传土拨鼠团队名词解释200配套拓展
微店链接：新闻传播考研名词解释手册【点击可跳转】 “杨乃武小白菜冤案”是所谓“清末四大奇案”之一。冤案为什么能够得...
命名和常量规约（java开发规范阿里巴巴）
命名规约类名采用大驼峰形式，一般为名词，例如 Object.但以下情形例外：（领域模型的相关命名）DO/ BO ...
网络通讯协议-TCP/IP协议
一.了解2个名词及语义: "OSI 7层参考模型"和"TCP/IP协议" OSI 7层参考模型之所以叫它为参考模型...
内存模型的若干思考
CPU层级编程模型：内存模型：异常模型：错误处理：功耗管理：STM32F3与F4系列Cortex M4内核编程手册...
【TRIZ名词】物-场模型
物-场模型（Su-Field Model），是最小技术系统的模型。阿奇舒勒认为：类似于三角形是最基本的形状。在技...
【TRIZ名词】发明问题模型
注：以下词汇解释来自于对各种出版物的整合，并含有自己理解的成分，可能会对您造成误导，请您根据自己的经验来判断是否...
🔝(1/2-事件模型)[神策]数据模型 · Sensors An
数据模型 · Sensors Analytics 使用手册https://www.sensorsdata.cn/m...