AI测试中科大、月之暗面等开源对话式语音合成模型 MoonCast；ChatGPT 发布「录音模式」，自动录音和生成会议纪要丨日报

RTE开发者社区 · 2025年06月05日 · 3514 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、智源开源轻量级超长视频理解模型 Video-XL-2

近日，智源研究院联合上海交通大学等机构，正式发布新一代超长视频理解模型：Video-XL-2。相较于上一版本的 Video-XL，该模型在多个维度全面优化了多模态大模型对长视频内容的理解能力：模型由视觉编码器、动态 Token 合成模块和大语言模型三部分组成，采用四阶段渐进式训练方法，并引入分段式预装填策略和双粒度 KV 解码机制。

效果更佳：Video-XL-2 在长视频理解任务中表现出色，在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先水平。
长度更长：新模型显著扩展了可处理视频的时长，支持在单张显卡上高效处理长达万帧的视频输入。
速度更快：Video-XL-2 大幅提升了处理效率，编码 2048 帧视频仅需 12 秒，显著加速长视频理解流程。

目前，Video-XL-2 的模型权重已全面向社区开放。Video-XL-2 在主流评测基准上超越所有轻量级开源模型，编码 2048 帧视频仅需 12 秒，可应用于影视内容分析、异常行为监测等场景。

项目主页：https://unabletousegit.github.io/video-xl2.github.io/
模型 hf 链接：https://huggingface.co/BAAI/Video-XL-2
仓库链接：https://github.com/VectorSpaceLab/Video-XL（@ 机器之心、@ 腾讯研究院）

2、谷歌的 Gemini 2.5 音频交互能力升级：支持情感化多语言语音对话及生成

谷歌的 Gemini 2.5 音频交互能力升级，其中包括 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 两款模型。

该系列模型支持包括自然对话、风格控制、工具集成、情境感知、多语言支持、情感对话、高级思维对话以及可控文本转语音等特性。

NotebookLM 的 Audio Overviews 和 Project Astra 就是用的这个模型驱动的，详细介绍可以看官方博客。现在可以在 AI Studio 中直接使用。

Gemini 2.5 官方博客：

https://blog.google/technology/google-deepmind/gemini-2-5-native-audio

Google AI Studio 在线体验：

https://aistudio.google.com/live（@ 三花 AI）

3、开源播客生成 MoonCast：对话式语音合成模型，能通过几秒人声样本生成自然的中英双语 AI 播客

MoonCast 是一款开源的对话式语音合成模型，能通过几秒人声样本生成自然的中英双语 AI 播客。

它专为高质量播客内容创作量身打造，旨在将文档转化为引人入胜的播客音频。模型依靠强大的 zero-shot text-to-speech（零样本语音合成）技术，能仅凭数秒的参考音频，合成逼真的语音。

demo：

诺贝尔物理学奖新闻稿（URL 链接：https://www.nobelprize.org/prizes/physics/2024/press-release/)

MoonCast 团队在剧本生成和音频建模两方面创新突破，打造更自然、高质量的 AI 播客系统。

技术突破一：利用 LLM 提炼信息生成摘要并创作具「人味」的播客剧本，添加填充词、响应词和自然卡顿等口语化细节；
技术突破二：采用 25 亿参数模型、大规模训练数据和 40k 上下文长度，通过三阶段训练和短段级自回归音频重建，实现 10 分钟以上的超长音频生成。

实验证明，MoonCast 性能较单句合成模型提升显著，尤其在中英双语长对话播客的自然度和连贯性方面表现惊艳，更接近真人播音效果。

GitHub:https://github.com/jzq2000/MoonCast

论文：https://arxiv.org/pdf/2503.14345

Demo:https://mooncastdemo.github.io/（@ 量子位、@ 腾讯研究院）

02 有亮点的产品

1、Fellou AI 浏览器推出 2.0 版本，支持多智能体协同与实时任务流调整

Fellou 浏览器宣布推出 2.0 版本，并号称「比以往更快、更惊人、更可靠」。

官方介绍，开发团队在过去一个月里，对 Fellou 浏览器进行了深层次的架构调整和全面优化。具体来看，Fellou 2.0 将拥有以下特点：

性能突破：Online-mind2web 基准测试成功率跃升（31%→80%）
执行效率优化：平均任务处理速度提升 1.2 倍
动态协作能力：支持多智能体协同与实时任务流调整，适应复杂场景需求

测试结果显示，Fellou 2.0 基于全新 Eko 2.0 架构，在 Online-mind2web 榜单中，任务完成率从 31% 提升到了 80%，多项测试中超过 Claude Computer Use 3.7 和 OpenAI Operator。

官方还透露，Fellou 很快会推出 Windows 版本，并且将会取消邀请码机制。

目前，Fellou 2.0 已开启内测，获得资格的用户可更新至最新版 Fellou 体验。

Fellou 官方下载链接：

fellou.ai/download（@APPSO、@ 阿星 AI 工作室）

2、微软发布 Bing Video Creator，由 OpenAI 的 Sora 提供技术支持，可通过自然语言生成多种类型视频

微软在官网发布了 Bing 搜索引擎全新功能——Bing Video Creator。

Bing Video Creator 由 OpenAI 的文生视频模型 Sora 提供技术支持，通过自然语言就能生成写实、风景、卡通、影视等各种视频。

同时会免费为用户提供该服务，生成速度分为快速和标准两种模式，初始有 10 次快速生成机会，用完后可消耗 100 微软奖励积分继续使用，或继续选择标准速度。

目前，支持生成的视频长度为 5 秒，9:16 格式（16:9 格式即将推出），用户可以同时排队生成三个视频。如果三个视频槽位均已占用，则需要等待其中一个完成后才能开始另一个。

为了防止 Bing Video Creator 被滥用，微软利用了 OpenAI 的 Sora 安全保障措施，并增加了额外的保护措施。例如，当系统检测到某个提示可能会生成有害视频时，会阻止该提示并警告用户。

此外，Bing Video Creator 还根据 C2PA 标准为每个生成的视频添加内容凭证和溯源信息，帮助用户识别 AI 生成的视频。

需要注意的是，目前国区还没有开放，要想免费使用可使用美版 Bing。（@AIGC 开放社区、@ 腾讯研究院）

3、李飞飞开源 Forge 渲染器，可在桌面端、低功耗移动设备、XR 等设备上实时、流畅地渲染 AI 生成的 3D 世界

李飞飞空间智能创业公司 World Labs，开源 Forge 渲染器，可在桌面端、低功耗移动设备、XR 等所有设备上实时、流畅地渲染 AI 生成的 3D 世界。具体来说，Forge 是一款 Web 端 3D 高斯泼溅渲染器，无缝集成 three.js，实现完全动态和可编程的高斯泼溅。

Forge 底层为 GPU 优化设计，其地位相当于传统 3D 图形领域的基础组件「着色器」。

Forge 只需极少的代码即可启动和运行。它支持多个 splat 对象、多个摄像头以及实时动画/编辑。

World Labs 联创、NeRF 作者 Ben Mildenhall 称这项技术「让开发者像处理三角形网格一样轻松处理 AI 生成的 3D 世界。」

与现代 3D 图形引擎中的着色器图形系统类似，Forge 允许将函数块（称为 Dyno）组合成计算图形，可以程序化地生成、任意修改 Spalt，或执行能想到的任何其他计算，并转换为 GLSL 语言在 GPU 上运行。

World Labs 成立以来完成超过 2.3 亿美元融资，投资方包括 a16z、英特尔、AMD 等。

他们的目标是将多模态 AI 从二维像素平面提升到完整的三维世界，称将于 2025 年推出首款产品。（@ 量子位）

4、全球著名 CRM 平台 Salesforce 收购了 AI Agent 平台 Moonhub

全球第一 CRM 平台 Salesforce 收购了 AI Agent 平台 Moonhub。

收购完成后，Moonhub 团队会全部加入 Salesforce，一起开发其主打智能体开发平台 Agentforce。

值得一提的是，这也是 Salesforce 自上周以 80 亿美元收购 Informatica 后，连续收购来增强其 Agentforce 平台，并且会继续大力发展智能体赛道。

Salesforce 首席执行官 Marc Benioff 曾多次在公开场合表示，非常看好 AI Agent 的发展，并且立下了一个宏大的愿景：到 2025 年底，通过 Agentforce 开发十亿个智能体。

Moonhub 的招聘智能体一共由三大块组成，Qualify AI 可自动从数百万份简历中识别最符合职位要求的候选人；

Engage AI 通过发送个性化消息，将大量潜在候选人从冷线索转化为准备面试的对象；Monitor AI 则实时分析候选人意图状态，并按需进行交接与升级。

目前，Salesforce 依托自研 Agentforce 平台也发布了自己的 HR 智能体 Agentforce for HR Service，功能方面更强应用范围更广。

Moonhub 表示，加入 Salesforce 后，会继续帮助扩大、增强 Agentforce 的 HR 功能，增强 Salesforce 在智能体赛道的影响力。（@AIGC 开放社区）

5、OpenAI 发布两项工作流功能，还宣布用户可以使用 MCP（模型上下文协议）连接其他深度研究工具

6 月 5 日凌晨，OpenAI 发布了两项 ChatGPT 新功能：「连接器（Connectors）」与「记录模式（Record Mode）」，把更新的重点放在了如何让 ChatGPT 真正融入企业日常、参与工作流：

连接器：结合深度研究功能，让 ChatGPT 连上公司里的各种工具和文件库，可以打通 GitHub、Google Drive、SharePoint、Teams、Dropbox、Outlook 等多个企业常用平台，实现无缝对接。用户只需一句话，就能发起横跨多个系统的数据查询。
记录模式：开会点一下按钮，ChatGPT 就能自动录音、记笔记、整理重点，开完直接生成会议纪要。

结合深度研究功能，新发布的「连接器」功能将可以打通 GitHub、Google Drive、SharePoint、Teams、Dropbox、Outlook 等多个企业常用平台，实现无缝对接。

此外， OpenAI 还宣布用户可以使用 MCP（模型上下文协议）连接其他深度研究工具。企业可以把自研工具、私有数据库集成进 ChatGPT 的认知系统。

而「记录模式」中，用户不仅可以在摘要中检索关键内容，还能精准定位到对应的原始发言片段。OpenAI 表示，该功能的推出旨在解决会议内容常常「说过即忘」的痛点。

目前，「连接器」开放给 Plus、Pro、Team、企业、教育版的用户使用；「记录模式」则即将上线 Plus、Pro、企业、教育版。(@APPSO)

03 有态度的观点

1、OpenAI COO：我们想让 AI 如同空气一样

日前，OpenAI COO（首席运营官）Brad Lightcap 接受了《华尔街日报》的访谈，其在采访中谈及了 OpenAI 近期与苹果前首席设计师 Jony Ive 共同打造名为「io」的全新公司。

主持人采访中问道「65 亿美元收购 io 到底值不值？」，Lightcap 则回答表示「我们想让 AI 如同空气一样存在，并且超越屏幕交互，走进日常生活中」。对于「为何要亲自下场做硬件」这一话题，Lightcap 认为：虽然 ChatGPT 目前能力很强，但依然还需要打开 App、输入文字并按下回车，而这并非真正的 AI 体验。

Lightcap 表示，团队如今思考，要如何摒弃现有的交互方式去让人们接触到 AI。而其也透露了部分方向：用户无需再提问、操作，AI 就能够提前预判用户需要什么、用户要准备干什么，并且将会融入日常生活的每一部分。

而据多家报道透露，Altman 和 Ive 所带来的产品目标定位为「继 MacBook 和 iPhone 后，用户常用的第三款核心设备」。据悉，该设备能完全感知用户所处的生活环境，并且体积小巧，可以放置在口袋里或桌面上。

报道指出，该设备并不会以手机的形态登场。Altman 和 Ive 都希望通过这款产品，让用户降低对手机屏幕的依赖。Altman 还指出，该设备也并非眼镜类产品。

完整采访视频：https://youtu.be/CQQE1gPjUDE?feature=shared（@APPSO）