在过去的一周里,世界各地的开发人员已经开始构建“自主代理”,这些代理可以使用大型语言模型 (LLM)(例如 OpenAI 的 GPT-4)来解决复杂的问题。虽然仍然很新,但此类代理可能代表 LLM 生产应用中的一个重要里程碑。
通常,我们通过在 ChatGPT 的文本窗口中输入措辞谨慎的提示与 GPT-4 进行交互,直到模型生成我们想要的输出。但是我们大多数人都缺乏技巧和耐心,无法坐下来一个接一个地写提示,引导 LLM 回答一个复杂的问题,例如“占领 20% 的指甲油市场的最佳商业计划是什么?”很自然地,开发人员一直在想办法使大部分过程自动化。这就是自治代理的用武之地。
一般来说,自主代理可以生成 LLM 处理的系统任务序列,直到它满足预定的“目标”。自治代理已经可以执行各种各样的任务,例如进行网络研究、编写代码和创建待办事项列表。
代理有效地将传统软件界面添加到大型语言模型的前端。并且该接口可以使用众所周知的软件实践(例如循环和函数)来指导语言模型完成一个总体目标(例如,“找到所有关于大衰退的 YouTube 视频并提取关键点”)。有些人称它们为“递归”代理,因为它们在循环中运行,向 LLM 提问,每个问题都基于上一个的结果,直到模型产生完整的答案。
Baby AGI
具有开创性的自治代理 BabyAGI 是由 Yohei Nakajima 创建的,他是一位 有着编程和做实验习惯的 VC。他将 BabyAGI 描述为“包含人工智能任务管理器的自主人工智能代理”。
Nakajima 是小型风险投资公司 Untapped Capital 的合伙人,他说他最初着手建立一个代理,通过复制他自己的工作流程,将他作为风险投资家经常执行的一些任务自动化——研究新技术和公司,等等。 . “我早上醒来处理清单上的第一件事,一整天我都在添加新任务,然后在晚上我回顾我的任务并重新排列它们的优先级,然后决定第二天要做什么,”他说。 BabyAGI 还系统地完成、添加和重新排列任务的优先级,以便 GPT-4 语言模型完成。
意识到他的创造可以应用于各种其他目标,Nakajima 将代理精简到最基本的部分(105 行代码),并将其上传到 GitHub 上供其他人用作他们自己的(更专业的)代理的基础。
Nakajima 说他从其他开发人员增强 BabyAGI 的方式中受到启发。他说,一些开发人员已经添加了审核功能,以及处理并行任务的能力、生成额外代理的能力,以及添加代码编写和机器人功能。
AUTO-GPT
Auto-GPT 似乎拥有更多自主权。 Auto-GPT 由 Toran Bruce Richards 开发,在 GitHub 上被描述为 GPT-4 支持的代理,可以以结构化方式搜索互联网。它可以创建子任务并启动新的代理来完成它们。它使用GPT-4编写自己的代码,然后可以“递归调试、开发和自我完善”代码。
Auto-GPT 可用于解决任何数量的问题,GitHub 上描述的示例案例涉及一位试图管理和发展烹饪业务的“厨师”。在示例中,“Chef-GPT”代理“自主开发和管理业务以增加净值”。
理查兹说,他最初想要一个人工智能代理,每天自动通过电子邮件向他发送人工智能新闻。但是,正如他告诉 Motherboard 的那样,他在这个过程中意识到现有的 LLM 正在努力应对“需要长期规划的任务”,或者“无法根据实时反馈自主改进他们的方法。”这种理解启发了他创建 Auto-GPT,他说,Auto-GPT“可以将 GPT4 的推理应用于更广泛、更复杂的问题,这些问题需要长期规划和多个步骤。”
“模型感到困惑”
自治代理在这个早期阶段主要是实验性的。而且他们有一些严重的不住,阻止人们从大型语言模型中获得他们想要的东西。
研究人员经常努力让 LLM 专注于一个目标。毕竟, LLM 的结果不是很容易预测。例如,如果两个用户在 ChatGPT 中编写相同的提示,他们每次都会从模型中得到不同的答案。
总部位于温哥华的开发商 Sully Omar 曾与一位代理商合作,他希望该公司对防水鞋进行一些市场调查,但由于某种原因,LLM 的输出方向开始走偏,并开始将注意力集中在鞋带上。
“模型感到困惑,”奥马尔说。 “LLM 无法理解‘我已经做到了,从而总是循环的做一些事情。’”
Omar 说,开发人员可能会找到新的方法让自主代理在 LLM 周围设置“护栏”,这样他们就可以继续完成任务而不会偏离轨道。
重要的是要记住,自主代理一周多前才开始出现在 GitHub(和 Twitter)上。鉴于围绕生成式 AI 的能量和当前的发展速度,我们有理由相信智能体将克服其早期的局限性。
“仅仅 9 天,这意味着可能发生的事情太多了,”奥马尔说。
迈向通用人工智能的一步
这也是当前对自主代理产生兴趣(并大肆宣传)的一个重要原因。他们提出了迈向通用人工智能 (AGI) 的重要一步,在 AGI 中,人工智能驱动的系统足够智能,可以独立工作,无需人工参与。
事实上,当我向 Nakajima 询问理解自主代理的简单方法时,他将“代理”描述为 AI 本身,而不仅仅是提示 LLM 的软件程序。
“如果你能让两个 ChatGPT 相互交谈,只要有正确的指导,他们就可以永远交谈,”他说。 “然后你可以把其中一个变成任务管理器来创建任务,另一个变成任务执行器。” . .在你按下 Go 键后,它们就会继续工作。”
Nakajima 告诉我,他的一个朋友半开玩笑地想出了 BabyAGI 这个名字。 BabyAGI 并非“普遍智能”,但其架构提出了一种将大型语言模型推向类似 AGI 的方法。
自主运行的AI 是一种让我们人类几乎本能地感到紧张的概念。我们担心未来人工智能系统开始协同工作的速度将超过人类的理解速度,并且朝着可能与我们自身利益不一致的目标迈进。在每条宣布新的自治代理的推文下,你会发现一些子推文询问代理人和 LLM 可能会变得流氓并开始造成伤害的可能性。
自主代理尽管很有前途,但可能会进一步强化人们的信念,即科技行业应该以某种方式“暂停”大型语言模型的开发,直到更好地理解可能的结果和风险。
网友评论