[LLM] 商汤Task Planning and Tool U
作者:
nlpming | 来源:发表于
2023-08-27 00:33 被阅读0次
1. 整体框架
- 大语言模型被证明存在一定的工具使用能力,但是对于复杂的任务需要结合任务规划和工具使用能力。本文提出了一个基于大模型的AI Agent框架,讨论了处理复杂任务需要的一些关键能力。并设计了两种Agent:
1)One-step Agent:表示处理复杂任务,提前规划好所有的子任务;
2)Sequential agent:执行复杂任务是一个顺序的递归的过程,执行完一步再规划下一步的执行;
- 并且评估了常见的一些LLM在处理复杂任务时的 任务规划(Task Planning)和工具(Tool Usage)使用 能力。
1.1 AI Agent框架
- 文本将AI Agent定义为:The Artifical Intelligence Agent (AI Agent) is defined as as program that employs artifical intelligence techiques to perform tasks that typically require human-like intelligence.;文本设计的AI Agent框架主要包括六个部分:
1)Task Instruction: 任务的说明,通常是由用户输入;
2)Designed Prompt: Prompt的设计,主要包括角色说明、工具描述、few-shot展示、聊天历史甚至是一些错误输出信息;
3)Tool Set: 主要包括一些额外的资源说明,比如数据库信息、API接口信息等,AI Agent能够使用这些工具帮助更好的完成任务;工具集扩展了AI Agent的能力,使得其能够访问和处理超出其内部知识的信息,与其他系统进行交互,完成一些自身不能完成的任务;比如通过天气API可以查询当前天气信息,Python解释器可以解决数学问题;
4)LLM: LLM是系统的核心组件,它能够处理用户指令并且和工具集交互,生成一些中间的输出和最终的答案;
5)Intermediate Output: LLM中间的输出信息主要包括三种类型的信息:(1) 基于用户指令的任务规划结果;(2) 选择或者创建工具完成规划中的每个子任务;(3) 工具执行完后的结果或者错误输出;
6)Final Answer: 当所有的处理完成之后,AI Agent能够结合任务规划、工具使用、和错误输出反馈给出最终的答案;
![](https://img.haomeiwen.com/i15650683/8b40b4210cda71b9.png)
基于LLM的AI Agent.png
1.2 Agent 能力
- 为了应用基于LLM的AI Agent来增强或取代现实应用中的人类决策,代理通常需要以下能力。为了赋予AI Agent以下能力通常需要使用思维链和向量数据库等。
1)Perception Ability(感知能力): AI Agent必须能从人类和系统说明中感觉用户指令的能力;
2)Task Planning Ability(任务规划能力): AI Agent能够将复杂的任务分解为一步步执行的子任务;
3)Tool Usage Ability(工具使用能力): AI Agent能够从已有工具中选择一个完成目前的任务,并且基于用户的说明创建一个新的工具;最后AI Agent还要能够执行所选择的、或者创建的新工具;
4)Learning/Reflection/Memory(学习/反馈/记忆能力): AI Agent应该具有能够从反馈中学习的能力,包括正确结果或者异常的错误。AI Agent应该集成一个记忆模块,比如日志或者聊天历史。
5)Summarization(总结能力): AI Agent应该能够根据执行历史,总结输出一个易于理解的最终答案;
1.3 Agent 设计
- 本文主要评估AI Agent 任务规划和工具使用的能力,因为作者认为其它能力(感知、反馈、记忆等)都是服务于这两个核心能力。因此文本设计了两种Agent代理:One-step Agent(TPTU-OA)和 Sequential Agent (TPTU-SA); 这两种不同的代理代表了两种不同的解决问题的方式,顺序循环决策和一步决策。
1)One-step Agent利用LLM全局的理解能力,一次性的规划处所有要执行的子任务。这种问题主要缺陷是处理问题可能缺乏灵活性;
2)Sequential Agent是采用增量的方式,一步步的规划出子任务并执行,直到输出Final Answer结束循环过程。这种方法允许在解决更广泛问题范围内持续的反馈和进步;
![](https://img.haomeiwen.com/i15650683/aa98607f00003bdd.png)
One-step Agent说明.png
![](https://img.haomeiwen.com/i15650683/58c37977a8cfe353.png)
Sequential Agent说明.png
2.AI Agent效果评估
2.1 数据集
- 工具选择两个基本原则:1)使用工具的数量;2)有哪些工具被使用;本文评估的重点在于SQL生成能力、python代码生成能力,分别代表数据库查询能力和数学计算能力。本文构建了120个问答对评估AI Agent使用工具,和解决复杂问题的能力。
![](https://img.haomeiwen.com/i15650683/69318b08fdec9015.png)
复杂的嵌套的SQL查询能力.png
2.2 工具集
- 本文定义了12个可用的工具包括:
1)SQL生成器;
2)Python代码生成器;
3)天气查询工具;
4)文生图;
5)图像文本提取能力(OCR能力)
6)Translator,翻译器;
7)Bing Searcher,搜索引擎;
8)Shell代码生成器;
9)Java代码生成器;
10)wikipedia搜索器;
11)office软件,给定文本自动生成文档、表格或者PPT;
12)Movie player,电影播放器;
2.3 评估使用的LLM
![](https://img.haomeiwen.com/i15650683/a0aae79e60b9b685.png)
LLM汇总.png
2.4 任务规划能力评估
- 文中对任务规划能力做了几组不同的实验包括:
1)Agent工具执行顺序的规划能力;
2)Agent规划子任务描述能力;
3)Agent同时规划工具执行顺序和子任务描述;
4)在加入一些不相关的工具之后,Agent规划能力是否有显著下降;
![](https://img.haomeiwen.com/i15650683/698b28f0f2bc3ce9.png)
TPTU-OA 一步规划出所有步骤使用的工具和生成子任务描述.png
![](https://img.haomeiwen.com/i15650683/c078eb8e584778ab.png)
TPTU-SA 一步一步顺序的生成工具和子任务描述.png
2.5 工具使用能力评估
- 文中评估了SQL当个工具的使用能力,包括生成简单的SQL语句或者生成比较复杂的嵌套的SQL查询语句。和数据计算能力。并且还评估了TPTU-OA和TPTU-SA使用多个工具的能力。
![](https://img.haomeiwen.com/i15650683/75cd6a9525cc2ca9.png)
多个工具的使用能力.png
参考:
本文标题:[LLM] 商汤Task Planning and Tool U
本文链接:https://www.haomeiwen.com/subject/rjzbmdtx.html
网友评论