开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.1 Flash Live:音频推理性能提升,ComplexFuncBench 得分达 90.8%

Google 正式发布原生音频模型 Gemini 3.1 Flash Live,旨在通过降低延迟与提升推理精度优化实时语音交互。该模型强化了复杂指令遵循与长程对话能力,现已接入 Google AI Studio 开发者平台及全球范围的 Gemini Live 服务。

开发者可通过 Google AI Studio 预览版获取 Gemini Live API;企业级功能已集成至 Gemini Enterprise;普通用户可在 Gemini Live 及全球 200 多个国家和地区的 Search Live 中体验。

( @Google Blog)

2、Gradium 发布 TTS 延迟评测:基于 DSM 架构实现 258ms TTFA,优于 ElevenLabs 与 OpenAI

Gradium 披露了其语音合成引擎的核心性能指标,重点优化级联语音智能体中的 Time to First Audio(TTFA)延迟。通过延迟流建模(DSM)架构与工程优化,Gradium 在实时语音交互中实现了优于 ElevenLabs 和 OpenAI 的响应速度。

https://gradium.ai/blog/time-to-first-audio

( @Gradium Blog)

3、Mistral AI 开源首个 TTS 模型 Voxtral TTS:4B 参数量,端到端延迟 70ms,支持零样本跨语言克隆

Mistral AI 推出其首款文本转语音(TTS)模型 Voxtral TTS,旨在提供高自然度、低延迟的多语言语音生成。该模型基于流匹配(Flow-matching)架构,可实现 3 秒音频素材的零样本声音克隆,主要面向企业级智能体及实时语音交互场景。

API 已上线,定价为 $0.016 / 1k 字符;带有参考语音的模型权重已在 Hugging Face 开源(CC BY NC 4.0 协议)。

https://mistral.ai/news/voxtral-tts

( @Mistral AI Blog)

4、Cohere 发布 Transcribe ASR 模型:基于 2B Conformer 架构,WER 均值降至 5.42%

Cohere 推出开源语音识别(ASR)模型 Transcribe。该模型采用 2B 参数规模的 Conformer 架构,在 Hugging Face Open ASR 排行榜中位列第一,旨在为企业级智能体(agent)流转提供高精度、高吞吐的语音输入层。

模型权重已在 Hugging Face 开放下载;同时提供免费限速 API 供实验,生产环境可通过专用的 Model Vault 按小时计费接入。

https://huggingface.co/CohereLabs/cohere-transcribe-03-2026

( @Cohere Blog)

02 有亮点的产品

1、Amazon 收购 Fauna Robotics:整合 59 磅双足机器人 Sprout 及前 Meta/Google 研发团队

Amazon 确认收购成立两年的家庭人形机器人初创公司 Fauna Robotics。该动作旨在吸纳其具备 Meta 与 Google 背景的创始团队及 59 磅级双足机器人平台,强化 Amazon 在家用及室内移动机器人领域的硬件布局

该公司核心产品为重 59 磅(约 26.8kg)的「儿童体型」人形机器人,具备双足(Bipedal)行走能力,此前已向特定研发合作伙伴交付。

在完成并购之后,Fauna 全体员工及两位前 Meta/Google 工程师创始人将集体迁往纽约,直接并入 Amazon 机器人业务板块

这是 Amazon 本月内的第二起机器人并购(此前为苏黎世爬楼机器人公司 Rivr),显示其正在集中获取能处理复杂室内地形(如阶梯、障碍物)的移动方案。

( @TechCrunch)

2、谷歌 Google Translate「实时翻译」功能正式登陆 iOS 平台

IT 之家 3 月 27 日消息,谷歌宣布旗下「谷歌翻译( Translate)」的「耳机实时翻译(Live translate with headphones)」功能已正式登陆 iOS 平台。允许 iPhone 用户在佩戴耳机时实现跨 70 多种语言的实时对话翻译。

该功能最早于去年以测试版形式推出,此次不仅覆盖 iOS,也进一步扩展至更多国家和地区市场,用户只需在应用中进入「实时翻译(Live translate)」模式,并选择「倾听(Listening)」,即可通过耳机实时接收翻译内容。

谷歌表示,该功能可适用于跨语言家庭交流、出境旅行等各种场景,支持全球超过 70 种语言,包括英语、中文、日语、韩语、法语、德语、西班牙语等。其不仅能进行语义翻译,还会尽可能保留说话者的语气、重音和节奏,从而提升对话的自然度,并帮助用户区分不同发言者。

当下,随着实时语音翻译能力逐步成熟,手机 + 耳机组合正成为跨语言沟通的重要入口,谷歌此次将实时翻译能力引入 iOS,也意味着其正与在该细分体验上展开更直接的竞争。作为比较,苹果公司现已在海外版本 iPhone / iPad 配对的 AirPods 耳机中推出了类似的实时翻译功能,同样允许用户实现同传级翻译。

@IT 之家)

3、Bland 发布 Norm:通过自然语言指令构建生产级语音智能体,响应延迟低于 400ms

Bland 推出名为 Norm 的 AI 助手,旨在将复杂的语音智能体构建过程自动化。用户只需输入自然语言指令,Norm 即可生成具备状态管理、中断处理及 API 调度能力的生产级配置,确保语音交互响应延迟维持在 400ms 以内的工业标准。

现已在 Bland 平台正式上线,提供 24/7 自助服务,支持技术团队通过自然语言实时修改或启动语音智能体。

( @Bland Blog)

03 有态度的观点

1、Kimi CEO:AI 研发正进入「AI 主导研究」时代,行业标准「已具备被挑战的条件」

月之暗面 CEO 杨植麟在 2026 中关村论坛全体会议上发表演讲,主题为《开源 AI:加速探索智能上限》,系统阐述了 Kimi 在大模型规模化效率与底层架构创新方面的最新进展。

杨植麟将大模型的本质概括为「把更多的能源转化成智能」,强调规模化是过去数年 AI 发展的核心基础。

他指出,Kimi 围绕三个维度提升规模化效率

杨植麟还援引英伟达 GTC 2026 黄仁勋主题演讲中的幻灯片指出,Kimi 系列开源模型正在成为全球芯片厂商和研究

机构的评测基准,「如果要发布一个新的芯片,你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升」。在研发范式的判断上,杨植麟描绘了一条清晰的演进路径:

三年前以互联网天然数据加少量人工标注为主,去年转向大规模强化学习,而今年起将进入「AI 主导研究」阶段——AI 将自主合成任务与训练环境、设计奖励函数,乃至探索新的网络架构。

他认为,过去十年被视为行业标准的技术(如 Adam 优化器、标准 Attention 架构)如今均已具备被挑战的条件。

很多以前认为是标准的东西,现在都是可以被挑战的。

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流