多模态关系

作者: 影子喵喵喵 | 来源:发表于2023-03-27 10:40 被阅读0次

    多模态深度学习可以将不同模态的信息连接起来,这对于生成式 AI 和神经搜索十分有用。在以下示例中,我们将 cat, dog,human,ape 的文本和图像映射到同一嵌入空间中:

    这些项目在单个嵌入空间中的位置编码了它们之间的关系信息:

    —— cat 的文本 embedding 和 dog 的文本 embedding 更近(相同模态);

    —— human 的文本 embedding 和 ape 的文本 embedding 更近(相同模态);

    —— cat 和文本 embedding 和 human 的文本 embedding 很远(相同模态);

    —— cat 的文本 embedding 和 cat 的图像 embedding 更近(不同模态);

    —— cat 的图像 embedding 和 dog 的图像 embedding 更近(相同模态)。

    这些信息很明显可以用于信息检索中,但是生成式 AI 也可以使用这些信息。相比于在一组文本或图像 embedding 中寻找距离最近的向量,生成式 AI 是为提示的 embedding 创建距离最近的文本或图像。

    多模态深度学习的关键就是理解不同模态信息之间的关系。

    你可以利用这种关系搜索现有数据,也就是神经搜索;或者也可以生成新的数据,也就是生成式 AI。

    相关文章

      网友评论

        本文标题:多模态关系

        本文链接:https://www.haomeiwen.com/subject/xciwrdtx.html