当前位置：网站首页软件资讯正文

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

来源：互联网发布时间：2026-03-12

原生，启动！

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——

Gemini Embedding 2。

这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

换句话说，不同媒介的数据第一次被放进同一个语义坐标系里。

在输入能力上，Gemini Embedding 2支持多种数据类型：

文本：支持最多8192个token

图像：每次请求最多处理6张图像，支持PNG和JPEG

视频：支持最长120秒的视频输入，格式为MP4和MOV

音频：原生嵌入音频数据，无需中间文本转录

文档：可直接嵌入最多6页的PDF
此外，模型不仅可以处理单一模态，还支持多模态混合输入（例如图像 +文本）。
这意味着模型可以捕捉不同媒体之间的复杂语义关系，从而更准确地理解现实世界中的信息。
在评测方面，Gemini Embedding 2不仅整体性能较上一代提升，同时也为多模态嵌入任务树立了新的性能基准。
一方面增强了语音处理能力，另一方面也在文本、图像和视频任务中均超越现有领先模型，实现SOTA。
乍看之下，这似乎只是一次底层的数据工程升级。
但实际上，它正为像龙虾这样的AI Agent真正“看懂”世界，提供了关键基础。
目前，Gemini Embedding 2已经通过Gemini API和Vertex AI展开公测。
原生多模态嵌入
嵌入模型（Embedding Model）本质上是把数据转化为稠密向量表示。
在这个向量空间中，语义相似的数据会彼此靠近，不相似的数据则距离更远。
传统的嵌入模型主要针对文本。
例如，在谷歌此前的论文《Gemini Embedding: Generalizable Embeddings from Gemini》中——
Gemini Embedding通过在大语言模型参数中已有的海量知识基础上构建表征，并将得来的嵌入用于：语义检索、文本聚类、分类，排序等下游任务。
但这只停留在文字阶段。
最新的Gemini Embedding 2，则首次彻底打通了多模态数据。
文本、图片、视频、音频和文档，都被压缩到同一个向量空间之中。
而这，就意味着模型实现了“跨模态语义对齐”，能够让猫这个「文字概念」与猫的照片这个「视觉概念」，在统一的嵌入空间中的数学向量的距离极度接近。
通俗来说，当你搜索“猫”的时候，系统不仅能找到相关文字，还能直接找到猫的图片、视频甚至声音。
也正因为如此，很多原本复杂的多模态流程可以被大幅简化。
从RAG检索、语义搜索、情感分析，到数据聚类等应用场景，都能直接受益。
更重要的是，这类能力对AI Agent意义巨大。
过去的Agent在操作电脑时，往往只能依赖文字信息。
例如识别按钮上的“设置”“确认”等标签。但真实世界的UI界面，大量信息其实来自视觉结构：
图标、布局、颜色、控件位置，正是传统文本嵌入模型难以处理的部分。
而有了多模态嵌入之后，情况就不同了。
对于像OpenClaw（龙虾）这样需要操作电脑，识别屏幕的Agent来说，它不再只是识别文字。
它可以直接理解：哪个像素区域是设置图标、哪个按钮与当前任务最相关，屏幕截图与文本指令之间的关系
换句话说，Gemini Embedding 2提供了一条统一的感官总线。视觉、听觉与文本信息，都能在同一个语义空间中进行关联。
这也为未来Agent真正理解屏幕、理解环境并代替人类操作电脑，奠定了最重要的语义基础。
在技术层面，Gemini Embedding 2继续采用Matryoshka Representation Learning（MRL）。
这种方法允许嵌入向量在保持语义信息的同时进行动态维度缩减。
（注：MRL强制模型把最核心、最关键的特征压缩在向量的前几十维里，次要的特征放在后面，这让开发者可以根据预算和算力，自由决定信息密度的分布管理）
Gemini Embedding 2的默认输出维度为3072维，但开发者可以根据需求缩减，例如：3072维、1536维、768维，从而在性能与存储成本之间取得平衡。
除了支持API调用外，Gemini Embedding 2也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用。
通过为不同类型的数据赋予统一的语义表示，Gemini Embedding 2正在为下一代AI应用：多模态Agent，乃至具身智能机器人提供关键基础设施。
参考链接
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
[2]https://arxiv.org/pdf/2503.07891
文章来自于“量子位”，作者 “henry”。

相关信息

卧龙苍天陨落2023武器排行对比卧龙苍天陨落2023武器排行是什么?卧龙苍天陨落2023武器哪个比较厉害?卧龙苍天陨落2023里面武器还是有很多的哦，那么也上新了很多大家不认识的武器了呢，今天就给大家带来武器的最新排行了，大家对比下
游戏新闻 03-12

艾尔登法环boss挑战顺序是什么？艾尔登法环boss挑战顺序是什么?艾尔登法环中有超多炫酷强力的boss玩家们可以挑战，许多新玩家们不知道该挑战boss的顺序是什么，小编这就来帮助玩家们解答这个疑问，感兴趣的玩家们可以来看看。艾尔登法
游戏新闻 03-12

艾尔登法环新手职业推荐攻略艾尔登法环新手职业推荐攻略，在艾尔登法环中玩家们在一开始可以选择职业进入到游戏中，每一种职业都有着不一样的战斗方式，小编这边为玩家们推荐一些新手玩家比较适合使用的职业，帮助玩家们更好的渡过前期。艾尔登
游戏新闻 03-12

推荐游戏新闻

steam账号修改密码方式一览 03-12

steam账号VAC封禁如何申诉 03-12

荣耀MagicV设置桌面天气操作技巧 03-12

荣耀magic v截屏操作方法 03-12

nothingphone2官网是啥 03-12

nothingphone2价格介绍 03-12

iqoo11pro正在运行的服务查看方法 03-12

vivoy27开启省电模式技巧 03-12

游戏下载 +

近期热点 +

Kimi Claw 实测：OpenClaw 热潮之下，自动化 AI 仍是半成品｜AI 上新

OpenClaw 是噱头吗？普通人要 OpenClaw有什么用？

高中生AI创业，现在只招龙虾员工：每月成本2800

我，18岁高中生，靠15个龙虾员工开公司“干翻”行业，16万网友围观

把爱泼斯坦邮件做成Gmail的00后硅谷小丑，被OpenAI「招安」了

游戏新闻周排行 +

03-12

鸿蒙系统玩游戏跟安卓互通吗相信平时玩手机游戏的朋友都经常会遇到安卓和ios不同服的情况。所以就有人开始担心鸿蒙系统玩游戏如果和安卓不互通，不仅会找不到一起玩游戏的朋友，还会丢失自己的数据。鸿蒙系统玩游戏跟安卓互通吗答：互通的

03-12

vivoy27进行系统升级操作方法 vivoy27进行系统升级怎么操作?vivoy27怎么看系统是不是最新版本?很多人玩vivoy27的时候想要自己的系统更新到最新的版本的哦，那么我们就需要去进行系统升级了，这样我们可以使用的功能会更加

03-12

steam账号修改邮箱方法一览 steam账号修改邮箱方法一览，steam是一款游戏中心平台，有超多好玩的大作玩家们可以在平台上购买游玩。玩家们想要修改steam邮箱但是不知道如何操作，这边小编就来帮助各位玩家们解答疑问，感兴趣的用

03-12

steam账号修改密码方式一览 steam账号修改密码方式一览，steam是一款游戏中心登录平台，用户们可以在软件中购买最新好玩的游戏并下载体验，许多玩家不知道steam中如何修改自己的密码，这边小编就来帮助各位用户们来想办法修改s

03-12

steam账号VAC封禁如何申诉 steam账号VAC封禁如何申诉，玩家们在通过使用steam平台游玩游戏时会遇到自己的账号被莫名其妙VAC封禁的情况，玩家们需要通过第一时间搜集对应的信息和证据，然后去找steam的客服来进行申诉，小