GPT-4指令微调

作者: Valar_Morghulis | 来源:发表于2023-04-09 15:18 被阅读0次

Instruction Tuning with GPT-4

Apr 2023

Baolin Peng*, Chunyuan Li*, Pengcheng He*, Michel Galley, Jianfeng Gao

[Microsoft Research]

https://arxiv.org/abs/2304.03277

https://instruction-tuning-with-gpt-4.github.io/

先前的工作表明，使用机器生成的指令对大型语言模型（LLM）进行微调以允许数据，这使得此类模型能够在新任务上实现显著的零样本功能，并且不需要人工编写指令。在本文中，我们首次尝试使用GPT-4生成用于LLM微调的指令遵循数据。我们对指令调整LLaMA模型的早期实验表明，GPT-4生成的52K英语和汉语指令允许数据在新任务上的零样本性能优于先前最先进模型生成的指令遵循数据。我们还收集了GPT-4的反馈和比较数据，以实现全面的评估和奖励模型训练。我们公开使用GPT-4生成的数据以及我们的代码库。