开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术****

1、谷歌推出 Lyria 3 Pro 音乐模型，最长生成三分钟专业音轨

Google 推出新一代音乐生成模型 Lyria 3 及 Lyria 3 Pro，现已通过 Gemini API 和 Google AI Studio 开放公测。该系列模型支持生成包含人声的高保真长音频，并引入了图像转音乐、时间对齐歌词以及分段作曲等高阶工程控制功能。

其关键亮点有：

双版本分场景部署：提供 lyria-3-pro-preview（主打工作室级音质，支持最长 3 分钟全曲生成）与 lyria-3-clip-preview（针对高并发优化，生成 30 秒短片段，适用于社交媒体和循环素材）。
多模态 Image-to-Music 输入：除文本 Prompt 外，模型支持直接输入图像，根据图片的视觉情绪、风格和氛围特征指导音频生成。
高精度结构化控制：引入「作曲模式」（Composer mode），开发者可针对引子（Intro）、主歌（Verse）、桥段（Bridge）等不同部分独立设定时间、强度和描述；同时支持 Tempo（节奏速度）和 Key（调性）的精确参数调节。
时间对齐歌词（Time-aligned lyrics）：支持在 Prompt 中明确定义歌词在音轨中的具体起止时间点，实现词曲同步的精确引导。
多模态端到端工作流：支持与 Gemini 3 Flash 联动，通过 Gemini 分析视频内容并自动生成描述性 Prompt，再由 Lyria 3 实时创作匹配的视频背景音乐。

( @google.blog)

2、美团龙猫团队开源 LongCat-Next 离散自回归多模态模型

美团龙猫团队开源了 LongCat-Next，这是一款总参数 68.5B、激活参数 3B 的原生多模态模型。该模型基于 LongCat-Flash-Lite MoE 骨干网络，引入了 DiNA（离散原生自回归范式），将文本、视觉和音频统一在单一自回归目标下，并提出 dNaViT 作为任意分辨率的统一视觉接口。

该模型在多项多模态基准测试中表现强劲，在 28 倍压缩比 下维持生成质量，尤其在文本渲染方面表现突出。同时，它具备高级语音理解、低延迟语音对话及可定制声音克隆能力。

Github 链接：

https://github.com/meituan-longcat/LongCat-Next

HuggingFace 链接：

https://huggingface.co/meituan-longcat/LongCat-Next

（@ 橘鸦 Juya）

3、Tether 旗下 BrainWhisperer 脑信号解码准确率达 98.3%，Kaggle Brain-to-Text 大赛排名第四

Tether 旗下 BrainWhisperer 项目最新测试中，脑信号转文字准确率达到 98.3%，在 Brain-to-Text '25 Kaggle 竞赛 466 支参赛队伍中以 1.78% WER 排名第四。

该系统基于 OpenAI Whisper 模型构建，结合 LoRA 微调技术，通过多模型集成管道将大脑皮层电信号解码为文字。Tether 同步推进跨个体信号解码框架及非侵入性 BCI 设备研发，并已发布基于 QVAC 平台的 Brain OS 开源脑操作系统。

（@ 深潮 TechFlow）

02 有亮点的产品

1、智谱多模态大模型「上车」迈巴赫

昨天，梅赛德斯 - 奔驰官宣，与清华大学、智谱合作开发的端侧多模态大模型技术将落地新一代 S 级轿车。

新款梅赛德斯 - 迈巴赫 S 级轿车将率先搭载该技术，其后排娱乐系统将深度融合自然语言处理与视觉、音频等多模态理解及生成能力，并结合车内摄像头等感知硬件，为后排乘客带来更智能、更人性化的沉浸式交互体验。

新势力的车机习惯让用户反复喊唤醒词，迈巴赫则选了一个更无感的方式。

迈巴赫表示，这套系统不需要联网，也不需要你开口说话，系统单靠摄像头就能读懂后排乘客的手势和情绪状态，然后默默把空调、遮阳帘调整到合适的位置。

(@APPSO)

2、DiligenceSquared 推出 M&A 尽职调查智能体：通过 AI 语音访谈将研究成本降低 90%

YC 2025 秋季营初创公司 DiligenceSquared 利用 AI 语音智能体自动化并购（M&A）中的商业尽职调查流程。通过自主访谈企业客户并合成深度报告，该服务将原本由顶级咨询公司收取的 50 万至 100 万美元服务费降低至 5 万美元，大幅提升了私募股权（PE）机构在交易早期的调研覆盖率。

AI 语音访谈智能体：采用类似 Keplar 与 Outset 的语音交互模型，自主与目标公司的企业客户及 C-suite 高管进行深度访谈，提取一手市场反馈。
10 倍级的成本压缩：通过 AI 承担基础调研与数据合成工作，将单项尽职调查项目的费用从传统咨询模式（麦肯锡、BCG 等）的百万美元级别压缩至 5 万美元。
长篇报告合成与校验：系统能将访谈见解与专有市场数据整合，生成长达 200 页的专业报告，并引入高级人类顾问（Human-in-the-loop）对结论的商业逻辑进行二次验证。
前置化调研决策：低廉的价格使得 PE 机构能够将原本属于交易后期的深度调研（Due Diligence）前置到接触早期，从而在未建立高确信度前进行低成本试错。
资深行业 Know-how 注入：创始团队由前 Blackstone 高级合伙人与 BCG 专家组成，确保 AI 提取的指标符合 PE 行业的硬核风控需求。

(@TechCrunch)

3、Granola 获 1.25 亿美元 C 轮融资：估值达 15 亿美元，发布企业级 API 与 Spaces 协作架构

Granola 宣布完成 1.25 亿美元 C 轮融资，由 Index Ventures 领投，估值升至 15 亿美元。公司正式启动从「个人 AI 会议笔记」向「企业级 AI 上下文平台」的战略转型，通过发布全新 API 接口与 Spaces 协作框架，将对话转录数据转化为可供主流模型（Claude、GPT、Gemini）直接调用的结构化企业知识库。

开放双轨制 API：推出 Personal API（面向 Business/Enterprise 计划个人用户）与 Enterprise API（面向系统管理员）。支持第三方应用编程访问会议上下文，打破会议数据孤岛。
支持 MCP（Model Context Protocol）：更新模型上下文协议接口，允许外部 AI 工具（如 Claude、ChatGPT、Cursor 等）根据文件夹权限直接读取、引用并理解用户存储在 Granola 内的会议背景。
Spaces 权限架构：引入 Team Space 与 My Notes 隔离机制。支持文件夹按公司或个人维度自动过滤，并支持无限层级的嵌套文件夹，解决大规模团队协作下的数据归档与权限穿透问题。
企业级合规与治理套件：集成 SSO 登录、SCIM 成员同步、细粒度访问控制（Granular Access Control）以及合规同意管理。新增定时转录删除功能，支持从转录文本中选择性抹除敏感数据。
多模型集成与连接器生态：内置 Gradiant Chat，底层聚合最新 Claude、GPT 及 Gemini 模型。目前已成为 Figma Make、Replit、Manus、v0、Bolt.new 等开发工具的官方数据连接器。

(@TechCrunch)