美文网首页
ZO-RankSGD:零阶优化器对齐人类反馈

ZO-RankSGD:零阶优化器对齐人类反馈

作者: Valar_Morghulis | 来源:发表于2023-03-09 09:53 被阅读0次

    Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

    Mar 2023

    Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

    [The Chinese University of Hong Kong]

    https://arxiv.org/abs/2303.03751

    https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback

    这篇论文的注释里有一个很有意思的链接:

    https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/

    摘要:在本文中,我们关注一个新的优化问题,其中目标函数是一个黑箱,并且只能通过排序预言来评估。这个问题在实际应用中很常见,特别是在由人类法官评估功能的情况下。具有人类反馈的强化学习(RLHF)是这种应用的一个突出例子,最近的工作采用了这种应用,以提高具有人类指导的大型语言模型(LLM)的质量。我们提出了ZO-RankSGD,这是第一种零阶优化算法,用理论上的保证来解决这个优化问题。具体地说,我们的算法采用了一种新的基于秩的下降方向随机估计器,并被证明收敛到一个平稳点。ZO RankSGD也可以直接应用于强化学习中的策略搜索问题,当只有剧集奖励的排名预言可用时。这使得ZO RankSGD成为现有RLHF方法的一个有前途的替代方案,因为它以在线方式进行优化,因此可以在没有任何预先收集的数据的情况下工作。此外,我们在一个新的应用中证明了ZO RankSGD的有效性:提高了由具有人类排名反馈的扩散生成模型生成的图像的质量。在整个实验中,我们发现ZO RankSGD只需几轮人类反馈就能显著增强生成图像的细节。总体而言,我们的工作通过解决仅使用排名反馈优化函数的问题,推进了零阶优化领域,并提供了一种在广泛领域中协调人和机器意图的有效方法。

    相关文章

      网友评论

          本文标题:ZO-RankSGD:零阶优化器对齐人类反馈

          本文链接:https://www.haomeiwen.com/subject/exyaldtx.html