美文网首页
Google Gemini 1.5 Pro 能力(官方样例演示)

Google Gemini 1.5 Pro 能力(官方样例演示)

作者: 啊阿伟啊 | 来源:发表于2024-02-16 18:31 被阅读0次

Google 在2月15日发布了最新的生成模型:Gemini 1.5 Pro。是一款多模态大模型,可以处理上下文长度达到1百万 token,包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词,高出目前市面上所有的基础生成模型。

基础生成模型上下文长度对比

Google 为了让用户更直观的感受到1百万 token 上下文长度的概念,做了3个演示 demo。

  1. 演示一:模型对视频数据的理解

输入数据为44分钟的视频。

演示1
  1. 演示二:模型对代码数据的理解

输入数据是 three.js 官网上全部的样例代码

演示二
  1. 演示三:模型对文档数据的理解

输入是402页的 PDF 文件

演示三

从这三个演示样例可以直观地感受到 Gemini 1.5 的以下能力:、

  1. 多模态能力(multimodal tokens):用来交互的数据可以是视频,文本,文本内容可以是文字语言,也可以是代码。
  2. 超长的上下文长度:可以轻松处理44分钟的视频,10万多行的代码,402页的 PDF 只用了其总容量的 1/3。
  3. 多模态提示(multimoudal prompt):可以将图片和文本一同作为输入处理,而且图片可以是抽象的线条画,模型可以根据这些抽象的信息从上下文找到对应内容。
抽象线条样例

相关文章

网友评论

      本文标题:Google Gemini 1.5 Pro 能力(官方样例演示)

      本文链接:https://www.haomeiwen.com/subject/ujxuadtx.html