Google 研究者发表了题为“大型语言模型的涌现能力”(Emergent Abilities of Large Language Models)的论文,考察了以 GPT-3 为代表的语言模型,发现语言模型的表现并非随着模型规模增加而线性增长,而是存在临界点,只有当模型大到超过特定的临界值,才会涌现出较小的模型不具备的能力。语言模型的这种涌现能力意味着,大型语言模型可能进一步扩展语言模型的功能。
GPT-自回归语言模型
RLHF
GPT-1
GPT-2
GPT-3
InstructGPT
1.使用人类更喜欢的数据去做训练(ALIGN)
2.应用强化学习提升性能天花板。
人工打分(强化学习)
吵一架 -5
跟他道歉 -1
认错要快 +3
ChatGPT 训练流程
监督学习(SFT)
收集人工编写的回答
奖励模型(RM)
从问题库中选择问题,重复生成四次回复,人工排序,利用排序结果训练奖励模型。
LossFunction:Pair-Wise Loss
RLHF
训练细节:GPT-3、2 Epochs、
强化学习算法 PPO
1.在每个 token 上都计算一个和第一步训练出的生成模型之间的 KL-Divergence,其目的是希望不要强化学习过程中不要太过于偏离最开始的生成模型。
2.PPO-PTX,在训练的同时加入一些通用预训练任务,以维持在通用 NLP 任务上的性能。
网友评论