chatGPT 相关关键词

chatGPT的起源 --- Transformer 系列的发展变化

深度学习发展历史.png

Transformer发展历史.png

图中，Transformer 有3个分支，GPT, T5, BERT。GPT 是一种单向(从左往右)预测下文概率算法，BERT是双向（上下文）预测下文的算法, 前几年因为BERT的双向预测，精度一直比GPT好。但OpenAI 一直坚持走单向的路线，经过3年的迭代，出现突破性的进展。

GPT是一种自然语言处理模型，使用多层变换器（Transformer）来预测下一个单词的概率，通过训练在语料库上学习的语言模式来生成自然语言, GPT这样的自回归式生成模型，也就是大家常见的“续写”模型。

ChatGPT写一篇文章时，它是一遍又一遍地问“鉴于到目前为止的文本，下一个单词应该是什么？”
如：

the best thing about AI
the best thing about AI is
the best thing about Ai is its
the best thing about Ai is its ability
....

其家族的发展历史

2020 年 7 月，OpenAI 发布了模型为 davinci 的初代 GPT-3 论文。
2021 年 7 月，Codex 论文发布，code-davinci-002在文本和代码上都经过训练，发布
2022 年 3 月，OpenAI 发布了指令微调的论文，davinci-instruct-beta和text-davinci-001发布
2022年4 月至7 月，OpenAI 开始对code-davinci-002模型进行 Beta 测试，也称其为 Codex。发布code-davinci-002
2022 年 5-6 月发布text-davinci-002，它是一个基于code-davinci-002的有监督指令微调模型。
2022 年 11 月，发布text-davinci-003和 ChatGPT，是使用的基于人类反馈的强化学习的版本指令微调模型的两种不同变体。

chatGPT 采用三段式的训练方法：

三段式训练.jpg

以下是chatGPT成功的原因：

chatGPT 核心算法： RLHF算法，以下是过程：

SFT （Supervised FineTune）监督学习
人工选择问题，并给出答案，把这些数据都喂给模型。这步只做一次，训练强大的基座模型。
奖励模型 Reward model
人工选择问题，用模型生成4个回答，人工排序，利用排序结果训练模型。这没有用打分而是排序，因为每个人打分可能会不同。
PPO（Proximal Policy Optimization）强化学习
重新选择问题，用强化学习模型生成答案，喂给奖励模型打分，生成分数并迭代。
该阶段使用RM模型的输出奖励值作为强化学习的优化目标，利用PPO算法微调SFT模型: