开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃

01 有话题的技术

1、通义发布「通义百聆」语音模型：升级 CosyVoice3 和 Fun-ASR，同步开源 0.5B 与 0.8B 版本

通义升级了其语音模型系列「通义百聆」，同步开源了两个轻量化版本。此举为云端服务提供了更低延迟与更高精度的语音能力，并为开发者社区提供了可本地部署与二次开发的 TTS 和 ASR 基础模型。

Fun-CosyVoice3 TTS 首包延迟降低 50%: 升级后的商业版模型支持双向流式合成，适用于语音助手、直播等实时场景。同时，中英混说词错误率（WER）降低 56.4%，复杂场景字符错误率（CER）降低 26%，支持 9 种语言、18 种方言的跨语种音色克隆。

Fun-CosyVoice3 合成：上面的 oversize 的衣服就不要选择这么大，你可以稍微再缩小一点点版型。

Fun-ASR 识别：然后被冠以了渣男线的称号，好了，不管这个，那么前方即将到达沈杜公路站，左边是 8 号线。

Fun-ASR 流式识别首字延迟降至 160ms: 在高噪声环境（如会议室、车载）下，识别准确率达到 93%。模型新增对歌词和说唱的识别能力，并支持 31 种语言的自由混说识别，无需预先指定语种。
ASR 引入 RAG 机制：针对企业级定制需求，Fun-ASR 通过集成检索增强生成（RAG），将定制热词上限从 1,000 条提升至 10,000 条，优化了专业术语、品牌名等的识别召回率，且不牺牲通用识别准确率。
开源 0.5B TTS 与 0.8B ASR 模型：本次同步开源了 Fun-CosyVoice3-0.5B（TTS）和 Fun-ASR-Nano-0.8B（ASR）。前者支持 3 秒 zero-shot 音色克隆，后者为轻量化 ASR。两者均支持本地部署与二次开发。

升级版 Fun-CosyVoice3 与 Fun-ASR 已在阿里云百炼平台可用；开源模型 Fun-CosyVoice3-0.5B 与 Fun-ASR-Nano-0.8B 已在 ModelScope、Hugging Face 及 GitHub 发布。

https://github.com/FunAudioLLM/CosyVoice

https://funaudiollm.github.io/cosyvoice3/

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512

（@ 通义大模型）

#####

2、UnityVideo 提出多模态统一训练：视频生成与模态估计性能显著提升，支持零样本泛化****

港科大、港中文、清华大学与快手「可灵」团队联合发布「UnityVideo」，一个统一多模态与多任务的视频生成框架。该模型通过同时训练 RGB 视频、深度图、骨骼、光流、分割掩码等多种视觉模态，显著提升了视频生成、可控生成和模态估计任务的性能，并展现出强大的零样本泛化能力。

统一多模态训练：通过动态任务路由，在单个架构中无缝支持条件生成（从辅助模态生成 RGB）、模态估计（从 RGB 估计辅助模态）和联合生成（从文本生成 RGB 及辅助模态）。
模态区分架构：引入上下文学习器（通过文本提示区分模态）和模态自适应切换器（为每种模态学习独立的调制参数），实现即插即用的模态选择。
渐进式课程学习：采用两阶段策略，先在单人场景训练像素对齐模态，再引入所有模态和多样化场景数据，建立扎实的空间对应关系基础。
OpenUni 数据集：构建包含 130 万个多模态视频样本的数据集，涵盖单人、双人及多种来源数据，支持统一训练。
零样本泛化能力：在单人数据上训练后，可泛化到多人场景；在人体骨架上训练后，能泛化到动物骨架估计；对未见过物体和场景的深度估计和分割能力得到提升。
定量性能提升：在文本生成视频任务上，背景一致性达 97.44%；可控生成动态度达 64.42%；模态估计方面，视频分割 mIoU 达 68.82%。

模型代码已开源，论文在 arXiv 发布，提供数据集和评估基准。

论文链接：

https://arxiv.org/abs/2512.07831

代码链接：

https://github.com/dvlab-research/UnityVideo

项目主页：

https://jackailab.github.io/Projects/UnityVideo

（@ 量子位）

#####

3、Authentic-Dubber 引入导演 - 演员交互学习：AI 配音情感准确率提升，复刻真实配音流程

#####

内蒙古大学刘瑞教授团队在 AAAI 2026 上提出「Authentic-Dubber」，一种模拟真实电影配音中「导演 - 演员」交互协作模式的 AI 框架。该框架首次引入「导演」角色，通过检索增强学习和渐进式演绎，显著提升了 AI 配音在情感表达上的准确性和真实感，超越现有主流基线模型。

检索增强导演 - 演员交互学习：框架核心是模拟真实配音流程，AI 需「先理解，再表达」，而非直接硬性模仿。
多模态参考素材库：整合场景氛围、面部表情、台词文本等多种模态信息，并利用 LLM 进行深度语义理解，提取情感表征。
情感相似度检索：AI 能够从海量素材库中检索出情感最相关的参考片段，模拟演员「揣摩」情感线索的过程。
渐进式图结构语音生成：逐步融合检索到的情感知识（从基本情绪到多模态信息，再到参考音频），生成情感饱满、层次丰富的语音。
AAAI 2026 论文发布：研究成果发表于 AAAI 2026，论文题为《Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning》。
实验结果显著：在 V2C-Animation 数据集上，情感准确率（EMO-ACC）超越所有基线模型；主观听评（MOS-DE， MOS-SE）获得最高分；Mel 频谱图显示出可量化的情感表达优势。

研究成果已发表在 AAAI 2026，论文和源代码均已公开。

论文标题：

Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning（AAAI 2026）

链接：

http://arxiv.org/abs/2511.14249

代码：

https://github.com/AI-S2-Lab/Authentic-Dubber

（@ 机器之心）

4、Google Gemini 音频能力全面升级：实时语音智能体更智能，跨语言翻译更自然

#####

Google 发布了更新的 Gemini 2.5 Flash Native Audio 模型，显著提升了实时语音智能体的能力，包括函数调用和指令遵循。该模型现已集成至 Google AI Studio、Vertex AI 及 Gemini/Search Live。此外，Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。

Gemini 2.5 Flash Native Audio 关键提升：
函数调用准确率达 71.5%：在 ComplexFuncBench Audio 测试中，模型可靠识别并执行外部函数调用，无缝整合实时信息。
指令遵循率达 90%：相较于前代 84% 的水平，模型能更精准地处理复杂指令，提升用户满意度。
多轮对话质量增强：模型能更有效地检索前轮上下文，实现更连贯、自然的对话体验。

此外，Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。

支持 70+ 语言、2000+ 语言对：结合 Gemini 模型的多语言能力与原生音频技术。
语音风格保留：捕捉原语调、节奏和音高，使翻译听起来自然。
支持连续监听与双向对话：可自动将多种语言译为目标语言，或在两人对话间实时切换翻译。
自动语言检测与抗噪：无需手动设置，即使在嘈杂环境下也能进行翻译。

( @Google Blog)

#####

5、Zoom AI 新模型在「人类最后测试」表现 SOTA，AI 助手将实现复杂推理任务****

Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中，通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩，显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现，3.0 中集成的智能体能力，将直接赋能更高效的企业协作和自动化流程。

HLE Benchmark SOTA 达标: Zoom AI 在「Humanity’s Last Exam (HLE)」完整数据集上得分 48.1%，超越 Google Gemini 3 Pro (45.8%)，展示了在复杂知识和推理能力上的领先。
联邦式 AI 架构与「Z-scorer」: 核心采用「联邦 AI」架构，通过专有的「Z-scorer」系统，协调 Zoom 自有 LLM、开源及闭源模型，兼顾特定任务性能、速度和成本。
「探索 - 验证 - 联邦」智能体策略: 引入创新的智能体工作流，通过平衡探索性推理与严格验证，聚焦并生成最具信息量和准确性的推理路径。
AI Companion 3.0 关键进展: 本次 SOTA 成果的基础是即将推出的 AI Companion 3.0，其智能体能力（包括检索、写作和工作流自动化）在复杂推理任务上得到显著提升。****

AI Companion 演进的阶段性目标: