美文网首页
chatGPT 技术分析

chatGPT 技术分析

作者: gone11 | 来源:发表于2023-03-03 13:53 被阅读0次

    chatGPT 相关关键词

    • Emergent Ability 涌现能力,小模型没有, 但在大模型上会出现的一种能力
    • Prompt 提示词,
    • In-Context Learning 上下文学习,在prompt中写几个例子,模型就会照着例子生成
    • Chain of Thought 思维链,模型不仅给出答案,还能给出答案是如何一步步推导出来的
    • Scaling Laws 缩放法则,模型效果的线性增长要求模型大小的指数增长

    chatGPT的起源 --- Transformer 系列的发展变化

    深度学习发展历史.png Transformer发展历史.png

    图中,Transformer 有3个分支,GPT, T5, BERT。GPT 是一种单向(从左往右)预测下文概率算法,BERT是双向(上下文)预测下文的算法, 前几年因为BERT的双向预测,精度一直比GPT好。但OpenAI 一直坚持走单向的路线,经过3年的迭代,出现突破性的进展。

    chatGPT 发展历史

    GPT是一种自然语言处理模型,使用多层变换器(Transformer)来预测下一个单词的概率,通过训练在语料库上学习的语言模式来生成自然语言, GPT这样的自回归式生成模型,也就是大家常见的“续写”模型。

    ChatGPT写一篇文章时,它是一遍又一遍地问“鉴于到目前为止的文本,下一个单词应该是什么?”
    如:

    the best thing about AI
    the best thing about AI is
    the best thing about Ai is its
    the best thing about Ai is its ability
    ....
    

    其家族的发展历史

    • 2020 年 7 月,OpenAI 发布了模型为 davinci 的初代 GPT-3 论文。
    • 2021 年 7 月,Codex 论文发布,code-davinci-002在文本和代码上都经过训练,发布
    • 2022 年 3 月,OpenAI 发布了指令微调的论文,davinci-instruct-beta和text-davinci-001发布
    • 2022年4 月至7 月,OpenAI 开始对code-davinci-002模型进行 Beta 测试,也称其为 Codex。发布code-davinci-002
    • 2022 年 5-6 月发布text-davinci-002, 它是一个基于code-davinci-002的有监督指令微调模型。
    • 2022 年 11 月,发布text-davinci-003和 ChatGPT,是使用的基于人类反馈的强化学习的版本指令微调 模型的两种不同变体。

    chatGPT 核心算法

    chatGPT 采用三段式的训练方法:


    三段式训练.jpg
    1. 收集演示数据,训练监督模型
    2. 收集对比数据,训练奖励模型
    3. 用PPO强化学习算法优化奖励模型

    以下是chatGPT成功的原因:

    • 强大的基座模型能力(InstructGPT);
    • 大参数语言模型(GPT3.5);
    • 高质量的真实数据(精标的多轮对话数据和比较排序数据);
    • 性能稳定的强化学习算法(PPO算法)

    chatGPT 核心算法: RLHF算法,以下是过程:

    • SFT (Supervised FineTune)监督学习
      人工选择问题,并给出答案,把这些数据都喂给模型。这步只做一次,训练强大的基座模型。
    • 奖励模型 Reward model
      人工选择问题,用模型生成4个回答,人工排序,利用排序结果训练模型。这没有用打分而是排序,因为每个人打分可能会不同。
    • PPO(Proximal Policy Optimization)强化学习
      重新选择问题,用强化学习模型生成答案,喂给奖励模型打分,生成分数并迭代。
      该阶段使用RM模型的输出奖励值作为强化学习的优化目标,利用PPO算法微调SFT模型:

    相关文章

      网友评论

          本文标题:chatGPT 技术分析

          本文链接:https://www.haomeiwen.com/subject/ozgsldtx.html