- 这篇文章揭示了ChatGPT Plugins背后的技术路线
- 来自微软的论文:TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
概述
- 作者提出了一个新的AI生态系统,基于LLM把数百万个API连接起来,完成各种特定任务
- 文章提出了一种架构,用抽象的方式展示了这样一个生态由什么模块构成,适用于什么任务。基本所有的任务都可以通过在操作系统上执行程序来调用API完成,包括:用PS画图、用PPT写分享、操作机器手臂之类的。
- 几大特点和优势
(1)可以执行数字和物理任务:例如画图,看图,生成API和外界交互
(2)制订了一个API平台标准:开发者们可以把新API和模型接入
(3)终身学习的能力:可以随时添加新API
(4)具有很好的可解释性:因为调用API的链路是清晰的,可以Review的
方法
TaskMatrix.AI 包含四部分
(1)Multimodal Conversational Foundation Model (MCFM), 负责和用户进行交互,理解目标以及多模态输入,生成可执行code来调用API
(2)API Platform, 提供了一个统一的文档规定,来存储百万级别的API ,允许API 开发者进行注册,更新和删除
(3)API Selector,负责推荐相关的API根据用户输入
(4)API Executor,负责执行生成的动作代码,调用API,返回中间以及最终执行结果
MCFM可学习,有两种方法学习提升
(1)RLHF:修改模型的参数,可以通过用户反馈来学习,训练一个奖励模型判断任务是否已经完成,目的是增加MCFM对API的理解能力,以及动作代码生成的能力、API selector检索API的准确率。
(2)Feedback to API developers:这个反馈不是修改模型参数,也可以反馈给开发者,让他们改进自己的API文档变得更加适合模型理解
使用场景
-
视觉任务补全:Visual ChatGPT
(1)图像编辑:删除、替换图像里的物品,更改图像风格
(2)视觉问答:回答关于一个图片的问题
(3)图片描述:对图片的内容、标题进行描述
(4)文本生成图像:根据文本生成对应的图像
(5)image-to-Sketch/Depth/Hed/Line:提取图像的一些特征
(6)Sketch/Depth/Hed/Line-to-Image,根据图像特征,生成完整图片。 这里根据Visual ChatGPT,(5)和(6)使用的是ContrlNet模型。 -
超长多模态内容生成
(1)Search API,根据搜索引擎检索相关信息;
(2)Text-to-Image API, 根据文本描述生成图像(这里使用的是mindjourney v5);
(3)大模型API,生成长文本。写一篇作文(带文字和图片) -
Office自动化
可以让模型对PPT做修改和生成。可以使用的相关API包括:
(1)鼠标和键盘的API (PyAutoGUI package);
(2)PPT File Reader API;
(3)PowerPoint APIs,主要是一些PPT的控制指令,包括create_slide, select_title,select_content, insert_text,move_piciture,change_theme 等等。 -
云服务使用
目的是帮助用户访问 Cloud 上的服务,提供计算、存储、网络、分析安全等。这里主要使用的是Azure Cloud APIs,包括了:
(1)OpenAI's Data Preparation API,验证、建议,并将用户数据重新格式化为JSONL文件;
(2)Data Uploading API;
(3)Model Listing API,提供了一个可访问模型的list ;
(4)Fine-tuning API, 微调模型;
(5)Job Analysis API,提供模型微调的状态;
(6)Model Deployment API ,对微调的模型进行部署操作;
(7)Speech-to-text and Text-to-Speech API
- 机器和物联网设备控制
作者测试了通过指导机器人和移动设备来帮助用户与现实世界交互的任务。MCFM 可以通过canmer API来感知环境,并将用户指令转换为机器人和物联网设备提供的操作 API。这里API包括:
(1)Robotic Pick,Move and Put APIs;
(2)Car Air Conditioner API,开关和设置温度等;
(3)TV API,电视开关,播放视频等;
(4)Music Playing API
(5)举例:作者让系统设置7点闹钟,并播放音乐,以及根据温度调节空调,之后,有执行了一些列对话操作。
几个有潜力的场景,包括:
(1)访问互联网
(2)访问元宇宙
(3)调用神经符号AI系统等。
网友评论