图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术****

1、谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨

Google 推出新一代音乐生成模型 Lyria 3 及 Lyria 3 Pro,现已通过 Gemini API 和 Google AI Studio 开放公测。该系列模型支持生成包含人声的高保真长音频,并引入了图像转音乐、时间对齐歌词以及分段作曲等高阶工程控制功能。

其关键亮点有:

( @google.blog)

2、美团龙猫团队开源 LongCat-Next 离散自回归多模态模型

图片

美团龙猫团队开源了 LongCat-Next,这是一款总参数 68.5B、激活参数 3B 的原生多模态模型。该模型基于 LongCat-Flash-Lite MoE 骨干网络,引入了 DiNA(离散原生自回归范式),将文本、视觉和音频统一在单一自回归目标下,并提出 dNaViT 作为任意分辨率的统一视觉接口。

该模型在多项多模态基准测试中表现强劲,在 28 倍压缩比 下维持生成质量,尤其在文本渲染方面表现突出。同时,它具备高级语音理解、低延迟语音对话及可定制声音克隆能力。

Github 链接:

https://github.com/meituan-longcat/LongCat-Next

HuggingFace 链接:

https://huggingface.co/meituan-longcat/LongCat-Next

(@ 橘鸦 Juya)

3、Tether 旗下 BrainWhisperer 脑信号解码准确率达 98.3%,Kaggle Brain-to-Text 大赛排名第四

Tether 旗下 BrainWhisperer 项目最新测试中,脑信号转文字准确率达到 98.3%,在 Brain-to-Text '25 Kaggle 竞赛 466 支参赛队伍中以 1.78% WER 排名第四

该系统基于 OpenAI Whisper 模型构建,结合 LoRA 微调技术,通过多模型集成管道将大脑皮层电信号解码为文字。Tether 同步推进跨个体信号解码框架及非侵入性 BCI 设备研发,并已发布基于 QVAC 平台的 Brain OS 开源脑操作系统。

(@ 深潮 TechFlow)

02 有亮点的产品

1、智谱多模态大模型「上车」迈巴赫

昨天,梅赛德斯 - 奔驰官宣,与清华大学、智谱合作开发的端侧多模态大模型技术将落地新一代 S 级轿车

新款梅赛德斯 - 迈巴赫 S 级轿车将率先搭载该技术,其后排娱乐系统将深度融合自然语言处理与视觉、音频等多模态理解及生成能力,并结合车内摄像头等感知硬件,为后排乘客带来更智能、更人性化的沉浸式交互体验。

新势力的车机习惯让用户反复喊唤醒词,迈巴赫则选了一个更无感的方式。

迈巴赫表示,这套系统不需要联网,也不需要你开口说话,系统单靠摄像头就能读懂后排乘客的手势和情绪状态,然后默默把空调、遮阳帘调整到合适的位置。

(@APPSO)

2、DiligenceSquared 推出 M&A 尽职调查智能体:通过 AI 语音访谈将研究成本降低 90%

图片

YC 2025 秋季营初创公司 DiligenceSquared 利用 AI 语音智能体自动化并购(M&A)中的商业尽职调查流程。通过自主访谈企业客户并合成深度报告,该服务将原本由顶级咨询公司收取的 50 万至 100 万美元服务费降低至 5 万美元,大幅提升了私募股权(PE)机构在交易早期的调研覆盖率。

(@TechCrunch)

3、Granola 获 1.25 亿美元 C 轮融资:估值达 15 亿美元,发布企业级 API 与 Spaces 协作架构

图片

Granola 宣布完成 1.25 亿美元 C 轮融资,由 Index Ventures 领投,估值升至 15 亿美元。公司正式启动从「个人 AI 会议笔记」向「企业级 AI 上下文平台」的战略转型,通过发布全新 API 接口与 Spaces 协作框架,将对话转录数据转化为可供主流模型(Claude、GPT、Gemini)直接调用的结构化企业知识库。

(@TechCrunch)

03 有态度的观点

1、经典科幻小说《雪崩》作者:我对头戴设备的判断是错的,二十年后人们还是会看手机

昨天,经典科幻小说《雪崩》(Snow Crash)作者 Neal Stephenson 发文,就 Meta 关闭元宇宙项目一事发表评论。

Stephenson 在文中回顾了自己在混合现实(MR)头戴设备公司 Magic Leap 任职期间的核心信念。

他曾说服同事和外界:「你真的认为二十年后,每个人还会整天盯着手里的小矩形屏幕吗?」彼时他认为答案显而易见:不会。

不过,在这篇最新的文章中,他直接推翻了这一判断。读者,我改变了想法。

二十年后,每个人依然会盯着手持的矩形屏幕——至少在唯一的替代方案是在脸上戴东西的前提下,是这样。Stephenson 进一步指出,试图将头戴设备做得越来越像普通眼镜,并不能解决接受度问题,反而带来了新的信任危机。

Google Glass 问世后几乎立刻催生了「glasshole」(眼镜傻 X)一词,Meta 外形接近普通眼镜的智能眼镜产品同样遭遇了类似的社会反弹。

他认为根源在于透明度的缺失:当有人盯着手机时,旁人至少能判断出他在看手机;而面对头戴设备的佩戴者,没有人知道对方是否正在注视自己,摄像头是否正在录像。这种不确定性让设备天然带有侵入感,「所以它令人不安」。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流