AI测试 Gemini 发布 Embedding 2 原生多模态嵌入模型，支持跨媒体语义理解与检索；复旦等团队推出声音理解基准丨日报

RTE开发者社区 · 2026年03月13日 · 2560 次阅读

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、Reka Edge：首包延迟 0.5s、吞吐翻倍的 7B 视觉模型，以 1/3 Token 占用冲击端侧物理 AI

Reka 正式推出下一代端侧视觉语言模型 Reka Edge。该模型采用 7B 参数量级，核心针对物理 AI（Physical AI）、机器人、无人机及移动端等受限环境优化，通过极高的 Token 效率实现了低延迟的视频流分析与物体检测。

架构优化与 Token 效率

Reka Edge 弃用了传统的视觉编码方案，转而采用基于 ConvNeXt V2 的全卷积视觉编码器（657M 参数），配合从零训练的 6.4B Transformer 推理骨干网。该架构针对高分辨率数据进行了瓦片化（Tile）优化，单张图像块仅产生 64 个 Token。在处理 1024x1024 像素图像时，其输入 Token 量仅为同类模型的 1/3，显著降低了上下文窗口占用并提升了推理速度。

性能基准与核心指标

在多项物理 AI 与视觉理解评测中，Reka Edge 表现优于 Qwen3.5 9B 及 Cosmos Reason2 8B，并在视频理解指标上接近参数量大得多的 Gemini 3 Pro。关键指标显示：其在 MLVU Test 与 MMVU 视频分析中处于行业领先地位；在 RefCOCO 物体检测基准上表现强劲；并在 Mobile Actions 评测中展现了端侧自主系统所需的工具调用（Tool-use）能力；同时具备更低的幻觉率与更强的对抗样本抗性。

部署与量化规格

模型支持灵活的端云部署，尤其针对 VRAM 受限场景提供了深度量化方案。通过 4-bit 量化，显存占用从 13GB 降至 5GB（降幅 62%），且保留了 98% 以上的原始性能，吞吐量提升达 2.3 倍。此外，官方还提供专有的 Reka Quant 3.5-bit 模式，进一步压缩存储空间以适配超低功耗设备。

( @RekaAILabs\@X)

2、谷歌发布 Gemini Embedding 2 原生多模态嵌入模型，延迟骤降 70%

谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2，这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前，该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

与此前仅支持文本向量化的嵌入模型不同，Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间，从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据，并基于语义相似度实现跨模态搜索、分类与聚类。

在能力规格上，Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势，并对不同输入类型提供了明确的支持范围。

文本：支持最多 8192 个输入标记的扩展上下文
图像处理：每次请求最多可处理 6 张图像，支持 PNG 和 JPEG 格式
视频：支持输入最长 120 秒的 MP4 和 MOV 格式视频
音频：原生支持音频数据的导入和嵌入，无需中间文本转录。
文档：直接嵌入最多 6 页的 PDF 文件

除了单模态处理能力之外，Gemini Embedding 2 还原生支持交错输入（interleaved input）。开发者可以在同一个请求中同时传入多种模态，例如「图片 + 文本描述」或「视频 + 文本提示」。模型会在生成向量表示时综合不同媒体之间的关系，从而捕捉更复杂的语义结构。例如，在电商或媒体分析场景中，系统可以同时理解商品图片与描述文本之间的关联。

参考链接：

https://x.com/GoogleAIStudio/status/2031421162123870239

( @InfoQ)

3、英伟达发布并开源混合架构大模型 Nemotron 3 Super

英伟达正式发布 Nemotron 3 Super，这是一个拥有 120B 总参数、12B 激活参数的混合专家模型（MoE）。该模型专门针对 Blackwell 架构优化，旨在解决自主智能体（Autonomous Agents）在长程任务中面临的「上下文爆炸」与「推理成本（Thinking Tax）」瓶颈。目前该模型已在 Hugging Face、Perplexity 等平台上线。

混合架构与算力表现

混合架构（Hybrid Architecture）：创新性地集成了 Mamba 层与 Transformer 层，前者将内存与计算效率提升 4 倍，后者确保深度推理能力。
潜在专家混合（Latent MoE）：采用新技术，在不增加推理成本的前提下，通过激活 4 个专家模块生成下一 Token，显著提升生成精度。
多 Token 预测（Multi-Token Prediction）：并行预测多个未来词，使推理速度提升 3 倍。
Blackwell & NVFP4 优化：在 Blackwell 平台上支持 NVFP4 精度运行，推理速度较 Hopper 平台（FP8）提升 4 倍且无精度损失。

针对智能体流的工程优化

百万级长上下文：具备 1M Token 上下文窗口，可一次性加载完整代码库或数千页财务报告，有效避免多 Agent 协作中常见的「目标漂移（Goal Drift）」。
解决上下文爆炸：针对多 Agent 场景中 Token 消耗较普通对话高出 15 倍的特性，Nemotron 3 Super 通过混合架构实现了 5 倍的吞吐量提升。
高精度工具调用：针对大规模函数库（Function Libraries）优化了调用准确性，确保在网络安全、半导体设计等高壁垒领域的可靠执行。

HuggingFace 链接：

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16

Blog 链接：

https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/

（@ 橘鸦 Juya）

4、复旦等研究团队推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

来自复旦大学，上海创智学院，INSAIT，华东师范大学，南开大学的研究团队，提出了首个系统评测第一人称声音理解能力的基准：EgoSound: Benchmarking Sound Understanding in Egocentric Videos

这是首个专门面向 MLLMs 的第一视角「声音理解」评测体系。目标很明确：让模型在真实世界中，能听见、理解、推理，并解释发生的一切。

以往的 egocentric VideoQA，更像一个「静音观察者」。它擅长回答：画面里有什么？人在做什么？却很难处理：谁在说话？为什么说？这个声音意味着什么？声音与动作如何形成因果链？

因此，EgoSound 关注的不是「视频里有什么」，而是：当声音成为关键证据时，模型还能不能答对？

研究团队评测了多款 SOTA MLLMs，并进行系统分析，给未来方法研究提供清晰靶点。同时构建并筛选高质量 OpenQA 并借助多个强模型辅助标注。最终保证：每条问题都绕不开「听觉线索」。

评测结果非常直观，最强模型与人类差距超过 27 个点说明：当前模型还无法稳定把声音转化为可靠认知。

人类平均准确率：83.9%

当前最佳模型：56.7%（Qwen3-Omni-Thinking-30B）

如果说过去的多模态模型更像一个擅长「看图说话」的解说员，那么 EgoSound 希望推动它成为真正的第一人称智能体：

既能看，也能听；不仅能描述，更能定位、解释与推断。

毕竟，真实世界从不静音。

（@ 量子位）

02 有亮点的产品

1、前 NotebookLM 团队成员项目：个性化自适应学习引擎 Wondering 开启早鸟测试

前 NotebookLM 团队成员 Cheng-Wei Hu 正式发布 Wondering 应用，定位为「全领域的 Duolingo」。

该平台旨在将任意垂直领域的复杂课题转化为颗粒度极小的视觉化引导路径，通过自适应引擎解决知识吸收效率与长程记忆留存的平衡问题，将多模态视觉内容与结构化教学路径结合，使用户能够在零碎时间内完成深度课题的闭环学习。

Wondering 的底层逻辑由三个核心技术维度支撑：

自定义模式：允许用户自定义知识图谱的深入程度、内容难度分级。以及个性化偏好权重，实现学习路径的动态生成。
主动学习机制：集成实时测试与练习工具，强制执行知识检索（Retrieval Practice）而非被动信息获取，确保理解力的工程化验证。
长程掌握算法：针对长期记忆曲线设计的算法模型，重点解决非线性学习场景下的知识衰减问题。

目前系统处于限量早期测试阶段，支持跨平台同步（App Store 及 Web 端）

https://wondering.app/

( @HcwXd\@X)

2、前快手语言大模型中心负责人张富峥，已加入智源人工智能研究院，负责 **LLM**** 方向 **

据报道，前快手语言大模型中心负责人张富峥已加入北京智源人工智能研究院，负责 LLM 方向。张富峥博士长期深耕大模型、自然语言处理、知识图谱和搜索推荐等 AI 领域，曾在快手任 General Manger 及语言大模型中心负责人，负责 Klear 系列大模型的技术建设及相关业务应用。

加入快手之前，他是美团点评 **NLP**** 中心的研究员 **，带领知识图谱团队负责构建围绕美团生活服务领域的知识图谱及其应用，为美团各场景业务提供更加智能的服务。更早前，他曾在微软亚洲研究院担任研究员。

（@ 雷锋网）

3、ChatGPT 发布动态视觉解释功能，支持 70 余项数理化公式实时交互

近日，ChatGPT 推出了动态可视化解释（interactive visual explanations）功能，便于用户实时查看公式、变量和数学关系的变化。

用户现在无需再阅读文字说明或查看静态图表，而是可以直接与交互式可视化内容互动。例如，当用户向 ChatGPT 询问「什么是勾股定理」时，它就能进行解释并提供交互式可视化模块，用户可以调整变量、修改公式参数，并能实时看到这些更改如何影响图表和结果——将抽象的方程式转化为可以直接进行可视化实验的对象。

据介绍，动态可视化讲解功能涵盖 70 多个核心数学和科学概念（包括平方差、圆的面积、勾股定理、线性方程等），实时展示公式、变量和关系的运行方式，引导学习者理解，并面向所有已登录 ChatGPT 的用户开放。

OpenAI 计划未来扩展此功能，使其涵盖更多主题：「这仅仅是个开始。未来，我们计划将互动式学习扩展到更多学科，并继续开发能够强化 ChatGPT 学习效果的工具。」这项新功能与 ChatGPT 近期推出的其他教育工具（例如学习模式）相辅相成，其学习模式可以引导用户逐步解决问题。

（@ 多知）

03 有态度的观点

1、Meta 称上传盗版电子书属于合理使用

为训练大模型，社交巨人 Meta 从 Z-Library 和 LibGen 等影子图书馆平台通过 BitTorrent 下载了逾百 TB 的电子书。

在正在进行的由图书作者提起的诉讼中，Meta 律师辩称，通过 BitTorrent 将盗版电子书上传给陌生人属于合理使用。Meta 还强调，这些数据帮助美国确立了其在全球 AI 领域的领先地位。

法庭去年裁决，使用盗版电子书训练大模型属于合理使用，但 Meta 仍然需要为通过 BitTorrent 下载和分享电子书的行为承担责任。

图书作者认为，Meta 参与了侵权行为。Meta 在上周递交的补充书面询问中表示，在下载 BT 文件过程中共享文件也属于合理使用，理由是这是 BT 协议的固有特性，上传不是选择而是技术本身的工作方式。

Meta 还辩称，使用 BitTorrent 共享文件是获取这些宝贵（但盗版）数据的必要手段。以 Anna’s Archive 为例，这些数据集只能通过 BT 下载获取，因此 BitTorrent 是唯一的选择。

( @solidot.org)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、Physical AI 系列活动硅谷站！探讨和上手全模态与硬件智能丨 Meetup+Workshop，3 月 19 日

湾区硅谷的开发者和创业者们，3 月 19 日见！

GTC 期间，来一场动脑又动手的 Physical AI 全天候嘉年华！同一场地，两场硬核活动无缝衔接：

上午 09:30｜Meetup：对话真实世界

下午 13:30｜Workshop：手搓语音 AI 硬件

基于 TEN 框架，实操接通语音 AI Agent。重点来了👉现场备有 40 套 Agora R1 开发板，代码跑通直接把硬件带回家！

上下午活动需分开独立报名，名额有限，拼手速：

上午 Meetup 报名：

https://luma.com/8we6qyma

下午 Workshop 报名：

https://luma.com/onc0xr9y

地点：Sunnyvale（审核后发具体定位）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。