开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、OpenBMB 更新 VoxCPM 1.5：音频采样率升至 44.1kHz，Token 率降低 50%

****

「VoxCPM」项目发布了其 tokenizer-free 文本转语音（TTS）系统 1.5 版本。该更新通过将音频采样率提升至 44.1kHz 显著改善了语音克隆的保真度，并通过降低 LM Token 率将计算效率提高了一倍。

音频采样率提升至 44.1kHz：新版本将音频 VAE 的采样率从 16kHz 提升至 44.1kHz（CD 级音质），能够保留更多高频细节，生成保真度更高的语音，尤其是在零样本语音克隆任务中。
LM Token 率减半至 6.25Hz：语言模型的 Token 生成速率从 12.5Hz 降低至 6.25Hz，这意味着在生成同样时长的音频时，所需的计算步骤减半，显著降低了推理成本和算力需求。
Tokenizer-Free 架构：模型不依赖将语音转换为离散 token 的传统方法，而是采用端到端的扩散自回归架构，在连续空间中直接从文本生成语音表征。该架构基于「MiniCPM-4」骨干，旨在减少离散化带来的信息损失。
低至 0.17 的实时率（RTF）: 在消费级 NVIDIA RTX 4090 GPU 上，模型支持流式合成，其实时因子（Real-Time Factor）低至 0.17，使其具备在本地环境中进行实时应用的性能。

Hugging Face:

https://huggingface.co/openbmb/VoxCPM1.5

(@Hugging Face)

2、智谱开源「会操作手机的 AI」AutoGLM

#####

智谱深夜开源其核心 AI Agent 模型 AutoGLM。该模型被业界视为全球首个具备「Phone Use」（手机操作）能力的 AI Agent，能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。此次开源意味着硬件厂商、手机厂商和开发者均可基于 AutoGLM，在自己的设备或系统中复现一个能「看懂」屏幕、并模拟真人进行点击、输入、滑动的 AI 助手。目前，AutoGLM 已支持微信、淘宝、抖音、美团等超过 50 个高频中文应用的核心场景，其自动化操作能力与此前引发热议的「豆包手机」演示相似。

开源地址：

https://github.com/zai-org/Open-AutoGLM

（ @ 科创板日报、@ 智谱）

3、NVIDIA 发布 NeMo Gym 与 Audio Flamingo 3：开源 RLVR 训练库及多模态音频理解模型

****

NVIDIA 在 NeurIPS2025 期间发布了一套针对「智能体」开发的工具链及多项研究成果，重点解决了音频多模态理解、实时语音流处理及强化学习训练环境的构建问题。此次更新通过开源 NeMo Gym 和数据设计库，直接降低了开发者进行特定领域模型定制和 RLVR（基于可验证奖励的强化学习）训练的技术门槛。

****

Audio Flamingo 3（SOTA 音频理解）：全开源的大型音频语言模型，支持跨语音、声音和音乐进行推理。模型上下文窗口支持处理长达 10 分钟 的音频片段，并在超过 20 个基准测试中取得当前最佳（SOTA）结果。
NeMo Gym（RLVR 训练加速）：开源强化学习库，专为 LLM 训练设计。它包含现成的训练环境，重点支持 RLVR（Reinforcement Learning from Verifiable Reward），简化了从反馈中优化模型的流程。
端到端语音流处理模型：
- MultiTalker Parakeet：流式自动语音识别（ASR）模型，可处理快语速及多说话人重叠（overlapped）的复杂场景。
- Sortformer：实现了实时的说话人分离（Diarization），可精确区分音频流中的不同发言者。
混合架构与高效推理研究：
- Minitron-SSM：引入组感知 SSM 剪枝方法，将 Nemotron-H 从 8B 参数压缩至 4B，在精度超越同级模型的同时，推理吞吐量提升 2 倍。
- Nemotron-Flash：针对实际延迟（Latency）而非参数量优化的 SLM 新架构，兼顾速度与精度。
合成数据工具链开源：「NeMo Data Designer」现以 Apache 2.0 协议开源。这是一个端到端工具包，用于生成、验证和精炼高质量的合成数据集，辅助生成式 AI 的开发。

NVIDIA 正在从单纯的算力提供商向「AI 开发基础设施」垄断者转型。通过开源 NeMo Gym 和 Data Designer，NVIDIA 实际上是在定义行业标准：未来的模型竞争不在于预训练，而在于基于特定领域数据的后训练（Post-training）和强化学习（RL）。此外，Minitron-SSM 和 Jet-Nemotron 等研究表明，NVIDIA 极其关注混合架构（如结合 Transformer 与 SSM）在边缘侧和即时推理中的效率，这直接对标了 Meta Llama 等开源模型在端侧部署的生态位。

NeMo 框架工具与模型（包括 Gym、Data Designer、Parakeet 等）已开放下载或通过 API 调用。

https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/

(@NVIDIA Blog)

###

02 有亮点的产品

1、Mizzen Insight：小时级深度访谈，让企业实时听见用户！

#####

近日，觅深科技（Mizzen AI）宣布完成来自海外机构的种子轮美元融资，并发布第一个产品 Mizzen Insight——国内首个 AI 深访用研平台。该平台将传统需要数周的深度访谈压缩至数小时，实现百倍提速、十倍降本，让深度用户研究首次进入「小时级时代」。

在用户研究领域，深度访谈一直被视为「最难做却最有价值」的用研方式。

Mizzen Insight 通过 AI 完整重写深访流程：自动生成访谈提纲、多线程并发深访、基于情境的实时深度追问、智能聚类与深度洞察分析——一站式完成传统团队数周的工作，让洞察更快、更准、更接近用户真实动机，使深访成为一项真正「随时可启动」能力。

创始人孙克强表示：「当团队随时能听见真实用户的声音，组织的工作方式会发生根本变化。我们希望让用户研究从昂贵的专业流程，变成普惠、实时的基础能力。」

目前，Mizzen Insight 已在出海电商、手机厂商、新能源、汽车科技公司、消费品牌和 SaaS 企业落地。平台也被硬件与健康设备企业及多家创业团队（AI 视频剪辑、内容工具等）用于高频验证需求。客户反馈普遍认为，Mizzen Insight 首次让深访具备「关键决策窗口内可完成」的速度与可靠性。

（@ 品玩）

2、Yoodli 完成 4000 万美元 B 轮融资，AI 驱动的沟通培训平台估值超 3 亿美元

****

AI 驱动的沟通培训初创公司 Yoodli 宣布完成 4000 万美元 B 轮融资，由 WestBridge Capital 领投，估值超 3 亿美元，较六个月前翻三倍。Yoodli 利用 AI 技术提供模拟场景训练，旨在辅助而非取代人类沟通能力。

融资与估值： 完成 4000 万美元 B 轮融资，总融资金额近 6000 万美元。估值超 3 亿美元，是六个月前水平的三倍多。
AI 辅助沟通训练： Yoodli 利用 AI 模拟销售电话、领导力辅导、面试、反馈会议等场景，提供结构化、可重复的练习，帮助用户提升口语表达能力。
「赋能而非取代」的理念： 联合创始人 Varun Puri（前 Google X 成员）强调 Yoodli 的 AI 技术旨在辅助人类，而非用机器取代，认为人类的真实性、脆弱性反馈是 AI 无法替代的。
企业级应用： 现已从面向消费者的产品转变为企业培训解决方案，为高管（go-to-market enablement）、合作伙伴认证和管理层辅导提供 AI 角色扮演和体验式学习工具。
客户包括： Google， Snowflake， Databricks， RingCentral， Sandler Sales， Franklin Covey， LHH 等。
技术特点：
- 多模型支持： 可与 Google Gemini、OpenAI GPT 等多种大型语言模型配合使用。
- 跨语言支持： 支持韩语、日语、法语、加拿大法语及多种印度语言。
- 集成性： 可嵌入现有软件，或通过浏览器直接访问。
- 无独立移动 App: 为简化用户训练流程，避免增加额外步骤。
商业指标： 报告期内，平台角色扮演次数和用户练习总时长增长 50%，平均经常性收入（ARR）增长 900%（具体数字未披露）。
团队扩张： 近期引入前 Tableau 和 Salesforce 的 Josh Vitello（CRO）、前 Remitly CFO Andy Larson（CFO）以及前 Tableau CPO Padmashree Koneti（CPO）。

B 轮融资完成后，Yoodli 将继续扩展 AI 教练、分析和个性化工具，深化在企业学习和专业发展领域的布局，并拓展亚太市场。

(@TechCrunch)

#####

3、Google 发布新一代 XR 设备，推动 AI 与现实场景深度融合

#####

2025年12月9日，在 Google The Android Show 特别节目（XR Edition）上，Google 推出全新 XR 设备矩阵，依托 Android XR 统一平台与 Gemini 大模型，构建了覆盖轻量化 AI 眼镜到旗舰级头显的全场景 XR 生态。

此次发布的 AI 眼镜主打「时尚优先、技术隐形」，与 Warby Parker、Gentle Monster 合作打造两款形态，可实现零食识别、AR 特效生成、旅游导航等多模态交互，还能借助 Glimmer UI 工具包和 Projected Library 快速拓展应用生态。

此外，由 XREAL 承载的 Project Aura 采用分离式计算模块，兼顾便携性与生产力；三星 Galaxy XR 头显则新增拟真形象、旅行模式等功能，并计划实现 2D 内容实时转 3D，为用户提供更沉浸的办公与娱乐体验。Google 此举旨在让计算渗透生活，推动 XR 设备从「工具」向「延伸感官」转变。

（@ 极客公园）

4、TruGen AI 推出视频智能体平台，实现实时、类人交互

****

TruGen AI 推出其视频智能体（Video Agents）平台，旨在通过实时、具备视觉、听觉、记忆和行动能力的 AI 智能体，将人机交互提升至类人水平。该平台强调「AI 必须更像人」，而非仅仅更智能。

****

核心产品： TruGen AI 平台，允许开发者构建具备「人脸」的 AI 视频智能体。
类人交互：
- 动机： 认为人类是天生的「面对面沟通者」，AI 目前的交互方式（文本、语音）缺乏人类的「存在感、眼神交流和面部表情」。
- 解决方案： 致力于提供具备「人类面孔」的 AI 智能体，实现更自然、更具表现力、更吸引人的交互。
关键技术与功能：
- 超逼真虚拟化身： 提供高度逼真、富有表现力的人类面孔。
- 视觉能力（Vision）: 智能体能「看见」，包括识别面孔、跟踪屏幕共享内容。
- 低延迟响应： 响应时间低于 1 秒，模拟真实对话流。
- Agentic 能力： 支持动作执行、检索增强生成（RAG）、推理、记忆和工具使用。
- 开发者优先： 易于集成到现有产品或工作流中，采用 API 优先设计。
- 全天候可用： 智能体可 24/7 运行。
应用场景设想：
- 24/7 AI 客服（提供即时、类人援助）。
- AI SDR（销售发展代表），负责潜在客户资格预审。
- AI 培训师和角色扮演教练。
- HR 面试官（快速筛选和初步评估候选人）。
- 技术栈： 平台使用了 ElevenLabs（AI 语音）、Deepgram（语音识别）、OpenAI（大模型）等技术。
- 可扩展性与安全性： 平台设计支持跨行业和跨语言应用，并强调可扩展性和安全性。