Google Gemini 1.5 Pro 能力（官方样例演示）

作者: 啊阿伟啊 | 来源:发表于2024-02-16 18:31 被阅读0次

Google 在2月15日发布了最新的生成模型：Gemini 1.5 Pro。是一款多模态大模型，可以处理上下文长度达到1百万 token，包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词，高出目前市面上所有的基础生成模型。

基础生成模型上下文长度对比

Google 为了让用户更直观的感受到1百万 token 上下文长度的概念，做了3个演示 demo。

输入数据为44分钟的视频。

演示1

输入数据是 three.js 官网上全部的样例代码

演示二

输入是402页的 PDF 文件

演示三

从这三个演示样例可以直观地感受到 Gemini 1.5 的以下能力：、

多模态能力（multimodal tokens）：用来交互的数据可以是视频，文本，文本内容可以是文字语言，也可以是代码。
超长的上下文长度：可以轻松处理44分钟的视频，10万多行的代码，402页的 PDF 只用了其总容量的 1/3。
多模态提示（multimoudal prompt）：可以将图片和文本一同作为输入处理，而且图片可以是抽象的线条画，模型可以根据这些抽象的信息从上下文找到对应内容。

抽象线条样例