GPT-4 :
InstructGPT 论文关注使用人类反馈训练大型语言模型来遵循指示。作者指出,使语言模型更大并不能本质上使它们更好地遵循用户的意图。大型模型可能生成不真实、有毒或简单无用的输出。
为了解决这个问题,作者对一系列任务使用人类反馈进行微调。他们从标签编写者的提示和响应开始,收集一组演示数据集,然后收集标签编写者展示期望模型行为的数据集。他们使用监督学习对 GPT-3 进行微调,然后使用来自人类反馈的强化学习进一步微调模型。得到的模型被称为 InstructGPT,它在真实性上有所改进,在减少有毒输出生成的同时,对公共 NLP 数据集的性能影响很小。作者得出结论,使用人类反馈进行微调是使语言模型与人类意图保持一致的有前景的方向。
用户:你能解释一下图 2 所描述的过程吗?
GPT-4:
InstructGPT 论文中的图 2 阐述了他们方法的三个步骤:
网友评论