ZO-RankSGD：零阶优化器对齐人类反馈

作者: Valar_Morghulis | 来源:发表于2023-03-09 09:53 被阅读0次

Android广播阻塞、延迟问题
09 优化选项卡
ios中界面性能测试与优化
第83天 blender小技巧-02曲面刻字
2018-11-14
泵车遥控器摇杆零位检查方法
理解MySQL中的explain
Android 优化记录
人类反馈
2019-08-11Seam-guided Local Alig

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

Mar 2023

Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

[The Chinese University of Hong Kong]

https://arxiv.org/abs/2303.03751

https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback

这篇论文的注释里有一个很有意思的链接：

https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/

摘要：在本文中，我们关注一个新的优化问题，其中目标函数是一个黑箱，并且只能通过排序预言来评估。这个问题在实际应用中很常见，特别是在由人类法官评估功能的情况下。具有人类反馈的强化学习（RLHF）是这种应用的一个突出例子，最近的工作采用了这种应用，以提高具有人类指导的大型语言模型（LLM）的质量。我们提出了ZO-RankSGD，这是第一种零阶优化算法，用理论上的保证来解决这个优化问题。具体地说，我们的算法采用了一种新的基于秩的下降方向随机估计器，并被证明收敛到一个平稳点。ZO RankSGD也可以直接应用于强化学习中的策略搜索问题，当只有剧集奖励的排名预言可用时。这使得ZO RankSGD成为现有RLHF方法的一个有前途的替代方案，因为它以在线方式进行优化，因此可以在没有任何预先收集的数据的情况下工作。此外，我们在一个新的应用中证明了ZO RankSGD的有效性：提高了由具有人类排名反馈的扩散生成模型生成的图像的质量。在整个实验中，我们发现ZO RankSGD只需几轮人类反馈就能显著增强生成图像的细节。总体而言，我们的工作通过解决仅使用排名反馈优化函数的问题，推进了零阶优化领域，并提供了一种在广泛领域中协调人和机器意图的有效方法。