美文网首页
chatGPT 技术分析

chatGPT 技术分析

作者: gone11 | 来源:发表于2023-03-03 13:53 被阅读0次

chatGPT 相关关键词

  • Emergent Ability 涌现能力,小模型没有, 但在大模型上会出现的一种能力
  • Prompt 提示词,
  • In-Context Learning 上下文学习,在prompt中写几个例子,模型就会照着例子生成
  • Chain of Thought 思维链,模型不仅给出答案,还能给出答案是如何一步步推导出来的
  • Scaling Laws 缩放法则,模型效果的线性增长要求模型大小的指数增长

chatGPT的起源 --- Transformer 系列的发展变化

深度学习发展历史.png Transformer发展历史.png

图中,Transformer 有3个分支,GPT, T5, BERT。GPT 是一种单向(从左往右)预测下文概率算法,BERT是双向(上下文)预测下文的算法, 前几年因为BERT的双向预测,精度一直比GPT好。但OpenAI 一直坚持走单向的路线,经过3年的迭代,出现突破性的进展。

chatGPT 发展历史

GPT是一种自然语言处理模型,使用多层变换器(Transformer)来预测下一个单词的概率,通过训练在语料库上学习的语言模式来生成自然语言, GPT这样的自回归式生成模型,也就是大家常见的“续写”模型。

ChatGPT写一篇文章时,它是一遍又一遍地问“鉴于到目前为止的文本,下一个单词应该是什么?”
如:

the best thing about AI
the best thing about AI is
the best thing about Ai is its
the best thing about Ai is its ability
....

其家族的发展历史

  • 2020 年 7 月,OpenAI 发布了模型为 davinci 的初代 GPT-3 论文。
  • 2021 年 7 月,Codex 论文发布,code-davinci-002在文本和代码上都经过训练,发布
  • 2022 年 3 月,OpenAI 发布了指令微调的论文,davinci-instruct-beta和text-davinci-001发布
  • 2022年4 月至7 月,OpenAI 开始对code-davinci-002模型进行 Beta 测试,也称其为 Codex。发布code-davinci-002
  • 2022 年 5-6 月发布text-davinci-002, 它是一个基于code-davinci-002的有监督指令微调模型。
  • 2022 年 11 月,发布text-davinci-003和 ChatGPT,是使用的基于人类反馈的强化学习的版本指令微调 模型的两种不同变体。

chatGPT 核心算法

chatGPT 采用三段式的训练方法:


三段式训练.jpg
  1. 收集演示数据,训练监督模型
  2. 收集对比数据,训练奖励模型
  3. 用PPO强化学习算法优化奖励模型

以下是chatGPT成功的原因:

  • 强大的基座模型能力(InstructGPT);
  • 大参数语言模型(GPT3.5);
  • 高质量的真实数据(精标的多轮对话数据和比较排序数据);
  • 性能稳定的强化学习算法(PPO算法)

chatGPT 核心算法: RLHF算法,以下是过程:

  • SFT (Supervised FineTune)监督学习
    人工选择问题,并给出答案,把这些数据都喂给模型。这步只做一次,训练强大的基座模型。
  • 奖励模型 Reward model
    人工选择问题,用模型生成4个回答,人工排序,利用排序结果训练模型。这没有用打分而是排序,因为每个人打分可能会不同。
  • PPO(Proximal Policy Optimization)强化学习
    重新选择问题,用强化学习模型生成答案,喂给奖励模型打分,生成分数并迭代。
    该阶段使用RM模型的输出奖励值作为强化学习的优化目标,利用PPO算法微调SFT模型:

相关文章

网友评论

      本文标题:chatGPT 技术分析

      本文链接:https://www.haomeiwen.com/subject/ozgsldtx.html