美文网首页
ZO-RankSGD:零阶优化器对齐人类反馈

ZO-RankSGD:零阶优化器对齐人类反馈

作者: Valar_Morghulis | 来源:发表于2023-03-09 09:53 被阅读0次

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

Mar 2023

Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

[The Chinese University of Hong Kong]

https://arxiv.org/abs/2303.03751

https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback

这篇论文的注释里有一个很有意思的链接:

https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/

摘要:在本文中,我们关注一个新的优化问题,其中目标函数是一个黑箱,并且只能通过排序预言来评估。这个问题在实际应用中很常见,特别是在由人类法官评估功能的情况下。具有人类反馈的强化学习(RLHF)是这种应用的一个突出例子,最近的工作采用了这种应用,以提高具有人类指导的大型语言模型(LLM)的质量。我们提出了ZO-RankSGD,这是第一种零阶优化算法,用理论上的保证来解决这个优化问题。具体地说,我们的算法采用了一种新的基于秩的下降方向随机估计器,并被证明收敛到一个平稳点。ZO RankSGD也可以直接应用于强化学习中的策略搜索问题,当只有剧集奖励的排名预言可用时。这使得ZO RankSGD成为现有RLHF方法的一个有前途的替代方案,因为它以在线方式进行优化,因此可以在没有任何预先收集的数据的情况下工作。此外,我们在一个新的应用中证明了ZO RankSGD的有效性:提高了由具有人类排名反馈的扩散生成模型生成的图像的质量。在整个实验中,我们发现ZO RankSGD只需几轮人类反馈就能显著增强生成图像的细节。总体而言,我们的工作通过解决仅使用排名反馈优化函数的问题,推进了零阶优化领域,并提供了一种在广泛领域中协调人和机器意图的有效方法。

相关文章

  • Android广播阻塞、延迟问题

    最近项目中,多次碰到app研发人员反馈广播从发送到接收器接收,间隔时间太长,要求系统进行优化,特别是开机阶...

  • 09 优化选项卡

    Main Window: 优化选项卡 优化器尝试对齐图像,使其无缝重叠。它通过最小化每个控制点的距离来实现这一点...

  • ios中界面性能测试与优化

    Color Misaligned Images优化(像素对齐) 参考文章Misaligned Images优化 使...

  • 第83天 blender小技巧-02曲面刻字

    1、新建猴头,+细分,——应用网格 2、添加文字,调整为对齐视图 3、添加精简修改器,优化字体网格 4、面模式——...

  • 2018-11-14

    继续阅读《人类简史》 镜像,复制,倒角剖面,捕捉,扫描,曲面修改器,阵列,对齐,组,间隔,挤出 理解(更新) 一、...

  • 泵车遥控器摇杆零位检查方法

    泵车遥控器摇杆零位检查方法: 1、查看摇杆的圆形齿轮与扇形齿轮上的黑色线是否对齐,未对齐,进行调节 2、先将所有的...

  • 理解MySQL中的explain

    前言 我们可以使用explain命令来查看MySQL查询优化器的执行计划是怎么来优化查询的。通过结果反馈,我们能更...

  • Android 优化记录

    1、zipalign 对齐APKAPK优化工具zipalign的详细介绍和使用zipalign详解2、启动优化启动...

  • 人类反馈

    人是需要反馈的动物。因为看得到即使反馈,所以那些通关类游戏会让人有征服感:明明白白清楚自己在哪一关,还有多久能全部...

  • 2019-08-11Seam-guided Local Alig

    缝线引导局部对齐的视差容错图像拼接(译) 一般做法:将图像对齐之后再接缝 本文:用接缝引导优化对齐; 在此基础上,...

网友评论

      本文标题:ZO-RankSGD:零阶优化器对齐人类反馈

      本文链接:https://www.haomeiwen.com/subject/exyaldtx.html