美文网首页
Visual ChatGPT:使用视觉基础模型进行对话、绘图和编

Visual ChatGPT:使用视觉基础模型进行对话、绘图和编

作者: Valar_Morghulis | 来源:发表于2023-03-12 10:24 被阅读0次

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Mar 2023

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

[Microsoft Research Asia]

https://arxiv.org/abs/2303.04671

https://github.com/microsoft/visual-chatgpt            短短几天收获14.6k stars

ChatGPT吸引了跨领域的兴趣,因为它提供了一个跨多个领域的具有卓越会话能力和推理能力的语言界面。然而,由于ChatGPT受过语言训练,它目前无法处理或生成来自视觉世界的图像。同时,视觉基础模型,如视觉Transformer或稳定扩散,虽然显示出强大的视觉理解和生成能力,但它们只是具有一轮固定输入和输出的特定任务的专家。为此,我们构建了一个名为\textbf{Visual ChatGPT}的系统,结合了不同的Visual Foundation模型,使用户能够通过以下方式与ChatGPT交互:1)不仅发送和接收语言,而且还接收图像2)提供复杂的视觉问题或视觉编辑指令,这些问题需要多个AI模型进行多步骤协作。3) 提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多个输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为借助Visual Foundation模型研究ChatGPT的视觉角色打开了大门。我们的系统公开于\url{https://github.com/microsoft/visual-chatgpt}.

相关文章

  • Chat gpt是什么

    ChatGPT是 OpenAI 训练的对话式大规模语言模型,以对话的方式进行交互。 如果你还没关注到ChatGPT...

  • 浅探ChatGPT

    ChatGPT是什么 ChatGPT是OpenAI最新公布的对话模型,可以理解为对话版本的GPT3.5,帮你搜索信...

  • css2 - Visual formatting model

    Visual formatting model -- 视觉格式化模型 1.Introduction to the ...

  • 那些不曾了解的CSS——03

    视觉格式化模型(visual formatting model) 视觉格式化模型是用来处理文档显示时的计算规则。 ...

  • CSS-BFC

    Visual formatting model 是用来处理和在视觉媒体上显示文档时使用的计算规则。该模型是 CSS...

  • VAK学习风格模型

    V代表Visual(视觉),意思是你倾向于通过插图、图表、视频和其他视觉媒体进行学习; A代表Auditory(听...

  • Building a Process Model-Model A

    使用Model Plot(模型绘图)菜单查看更多关于模式的信息。 |Model Plot Menu(模型绘图菜单)...

  • Day—4

    R 编程语言,是进行统计计算和绘图的环境 R语言的基础绘图系统主要由基础包graphics提供 Rstudio 图...

  • R可视化——ggplot2绘图过程中如何实现轴截断?

    绘制基础图形 1、加载绘图包——这里主要用到基础绘图包ggplot2和主题设置包ggprism。 2、数据——使用...

  • CNN感受野(VGG)

    从图像中提取CNN特征,VGG模型是首选算法 。VGG是牛津大学Visual Geometry Group(视觉几...

网友评论

      本文标题:Visual ChatGPT:使用视觉基础模型进行对话、绘图和编

      本文链接:https://www.haomeiwen.com/subject/ygbfrdtx.html