chatGPT 相关关键词
- Emergent Ability 涌现能力,小模型没有, 但在大模型上会出现的一种能力
- Prompt 提示词,
- In-Context Learning 上下文学习,在prompt中写几个例子,模型就会照着例子生成
- Chain of Thought 思维链,模型不仅给出答案,还能给出答案是如何一步步推导出来的
- Scaling Laws 缩放法则,模型效果的线性增长要求模型大小的指数增长
chatGPT的起源 --- Transformer 系列的发展变化
深度学习发展历史.png Transformer发展历史.png图中,Transformer 有3个分支,GPT, T5, BERT。GPT 是一种单向(从左往右)预测下文概率算法,BERT是双向(上下文)预测下文的算法, 前几年因为BERT的双向预测,精度一直比GPT好。但OpenAI 一直坚持走单向的路线,经过3年的迭代,出现突破性的进展。
chatGPT 发展历史
GPT是一种自然语言处理模型,使用多层变换器(Transformer)来预测下一个单词的概率,通过训练在语料库上学习的语言模式来生成自然语言, GPT这样的自回归式生成模型,也就是大家常见的“续写”模型。
ChatGPT写一篇文章时,它是一遍又一遍地问“鉴于到目前为止的文本,下一个单词应该是什么?”
如:
the best thing about AI
the best thing about AI is
the best thing about Ai is its
the best thing about Ai is its ability
....
其家族的发展历史
- 2020 年 7 月,OpenAI 发布了模型为 davinci 的初代 GPT-3 论文。
- 2021 年 7 月,Codex 论文发布,code-davinci-002在文本和代码上都经过训练,发布
- 2022 年 3 月,OpenAI 发布了指令微调的论文,davinci-instruct-beta和text-davinci-001发布
- 2022年4 月至7 月,OpenAI 开始对code-davinci-002模型进行 Beta 测试,也称其为 Codex。发布code-davinci-002
- 2022 年 5-6 月发布text-davinci-002, 它是一个基于code-davinci-002的有监督指令微调模型。
- 2022 年 11 月,发布text-davinci-003和 ChatGPT,是使用的基于人类反馈的强化学习的版本指令微调 模型的两种不同变体。
chatGPT 核心算法
chatGPT 采用三段式的训练方法:
三段式训练.jpg
- 收集演示数据,训练监督模型
- 收集对比数据,训练奖励模型
- 用PPO强化学习算法优化奖励模型
以下是chatGPT成功的原因:
- 强大的基座模型能力(InstructGPT);
- 大参数语言模型(GPT3.5);
- 高质量的真实数据(精标的多轮对话数据和比较排序数据);
- 性能稳定的强化学习算法(PPO算法)
chatGPT 核心算法: RLHF算法,以下是过程:
- SFT (Supervised FineTune)监督学习
人工选择问题,并给出答案,把这些数据都喂给模型。这步只做一次,训练强大的基座模型。 - 奖励模型 Reward model
人工选择问题,用模型生成4个回答,人工排序,利用排序结果训练模型。这没有用打分而是排序,因为每个人打分可能会不同。 - PPO(Proximal Policy Optimization)强化学习
重新选择问题,用强化学习模型生成答案,喂给奖励模型打分,生成分数并迭代。
该阶段使用RM模型的输出奖励值作为强化学习的优化目标,利用PPO算法微调SFT模型:
网友评论