图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、通义发布「通义百聆」语音模型:升级 CosyVoice3 和 Fun-ASR,同步开源 0.5B 与 0.8B 版本

通义升级了其语音模型系列「通义百聆」,同步开源了两个轻量化版本。此举为云端服务提供了更低延迟与更高精度的语音能力,并为开发者社区提供了可本地部署与二次开发的 TTS 和 ASR 基础模型。

Fun-CosyVoice3 合成:上面的 oversize 的衣服就不要选择这么大,你可以稍微再缩小一点点版型。

Fun-ASR 识别:然后被冠以了渣男线的称号,好了,不管这个,那么前方即将到达沈杜公路站,左边是 8 号线。

图片

图片

升级版 Fun-CosyVoice3 与 Fun-ASR 已在阿里云百炼平台可用;开源模型 Fun-CosyVoice3-0.5B 与 Fun-ASR-Nano-0.8B 已在 ModelScope、Hugging Face 及 GitHub 发布。

https://github.com/FunAudioLLM/CosyVoice

https://funaudiollm.github.io/cosyvoice3/

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512

(@ 通义大模型)

#####

2、UnityVideo 提出多模态统一训练:视频生成与模态估计性能显著提升,支持零样本泛化****

图片

港科大、港中文、清华大学与快手「可灵」团队联合发布「UnityVideo」,一个统一多模态与多任务的视频生成框架。该模型通过同时训练 RGB 视频、深度图、骨骼、光流、分割掩码等多种视觉模态,显著提升了视频生成、可控生成和模态估计任务的性能,并展现出强大的零样本泛化能力。

模型代码已开源,论文在 arXiv 发布,提供数据集和评估基准。

论文链接:

https://arxiv.org/abs/2512.07831 

代码链接:

https://github.com/dvlab-research/UnityVideo 

项目主页:

https://jackailab.github.io/Projects/UnityVideo

(@ 量子位)

#####

3、Authentic-Dubber 引入导演 - 演员交互学习:AI 配音情感准确率提升,复刻真实配音流程

#####

图片

图片

内蒙古大学刘瑞教授团队在 AAAI 2026 上提出「Authentic-Dubber」,一种模拟真实电影配音中「导演 - 演员」交互协作模式的 AI 框架。该框架首次引入「导演」角色,通过检索增强学习和渐进式演绎,显著提升了 AI 配音在情感表达上的准确性和真实感,超越现有主流基线模型。

研究成果已发表在 AAAI 2026,论文和源代码均已公开。

论文标题:

Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning(AAAI 2026)

链接:

http://arxiv.org/abs/2511.14249

代码:

https://github.com/AI-S2-Lab/Authentic-Dubber

(@ 机器之心)

4、Google Gemini 音频能力全面升级:实时语音智能体更智能,跨语言翻译更自然

#####

Google 发布了更新的 Gemini 2.5 Flash Native Audio 模型,显著提升了实时语音智能体的能力,包括函数调用和指令遵循。该模型现已集成至 Google AI Studio、Vertex AI 及 Gemini/Search Live。此外,Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。

图片

此外,Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。

( @Google Blog)

#####

5、Zoom AI 新模型在「人类最后测试」表现 SOTA,AI 助手将实现复杂推理任务****

图片

Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中,通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩,显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现,3.0 中集成的智能体能力,将直接赋能更高效的企业协作和自动化流程。

AI Companion 演进的阶段性目标:

相关链接:

https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/

( @Zoom Blog)


02 有亮点的产品

1、Google 推出紧急实时视频功能,为紧急服务提供现场视觉信息

#####

图片

Google 在 Android 平台上推出了「Emergency Live Video」功能。该功能允许紧急调度员向用户发送请求,用户通过一次点击即可启动端到端加密的实时视频流,为紧急服务提供现场视觉信息。

该功能即日起在美国、德国和墨西哥部分地区上线,支持 Android 8+ 设备。Google 正与全球公共安全机构合作,计划将此能力扩展至更多区域。

( @Android Blog)

****
Google 在「Search Live」功能中集成了新的原生音频 Gemini 模型。此更新旨在提升语音对话的自然度和表现力,允许用户调整语音回应的速度。
****

更新的模型将在未来一周内向美国所有「Search Live」用户推出。

( @Google Blog)


03 有态度的观点 

1、李彦宏:2025 年是 AI 应用普及关键年,机会在应用层

#####

图片

据上观新闻报道,百度创始人李彦宏在《时代》周刊「AI 架构师」专题采访中表示,2025 年将是 AI 应用普及的关键一年。

他判断,基础模型层最终会留下少数几家,但应用层的各个方向将涌现众多成功参与者,「我认为那里才是机会最多的地方」。

他强调,百度采取「应用驱动」策略,针对搜索、数字人等重点领域定向训练模型以形成优势,而非追求面向所有人的「万能模型」。

李彦宏表示,全球 AI 竞争态势趋于白热化。与美国科技界主流投入巨资发展 AGI 不同,中国更关注应用,并拥有制造业等独特场景与低成本高效率的现实需求,「我们需要利用 AI 来解决这些挑战」。

他进一步提出,百度面向真实产业场景发布可商用自我演化超级智能体「伽谋」,以寻求「全局最优解」,并在公开性能基准测试与多项权威评测中展现算法推理优势与技术竞争力。

谈及技术趋势,他预计行业的决定性突破将在多模态,尤其在药物研发领域希望以 AI 推动革命性变革。

在更广泛的行业语境中,李彦宏多次强调「应用驱动」:他在此前接受《极客公园》采访时指出,「昨天大家在卷芯片、卷模型等等,我一直是说要卷应用,应用才是真正创造价值的地方」。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流