图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、OpenBMB 更新 VoxCPM 1.5:音频采样率升至 44.1kHz,Token 率降低 50%
****

图片

「VoxCPM」项目发布了其 tokenizer-free 文本转语音(TTS)系统 1.5 版本。该更新通过将音频采样率提升至 44.1kHz 显著改善了语音克隆的保真度,并通过降低 LM Token 率将计算效率提高了一倍。

Hugging Face: 

https://huggingface.co/openbmb/VoxCPM1.5

(@Hugging Face)

2、智谱开源「会操作手机的 AI」AutoGLM

#####

智谱深夜开源其核心 AI Agent 模型 AutoGLM。该模型被业界视为全球首个具备「Phone Use」(手机操作)能力的 AI Agent,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。此次开源意味着硬件厂商、手机厂商和开发者均可基于 AutoGLM,在自己的设备或系统中复现一个能「看懂」屏幕、并模拟真人进行点击、输入、滑动的 AI 助手。目前,AutoGLM 已支持微信、淘宝、抖音、美团等超过 50 个高频中文应用的核心场景,其自动化操作能力与此前引发热议的「豆包手机」演示相似。

开源地址:

https://github.com/zai-org/Open-AutoGLM

( @ 科创板日报、@ 智谱)

3、NVIDIA 发布 NeMo Gym 与 Audio Flamingo 3:开源 RLVR 训练库及多模态音频理解模型
****
****
NVIDIA 在 NeurIPS2025 期间发布了一套针对「智能体」开发的工具链及多项研究成果,重点解决了音频多模态理解、实时语音流处理及强化学习训练环境的构建问题。此次更新通过开源 NeMo Gym 和数据设计库,直接降低了开发者进行特定领域模型定制和 RLVR(基于可验证奖励的强化学习)训练的技术门槛。
****

NVIDIA 正在从单纯的算力提供商向「AI 开发基础设施」垄断者转型。通过开源 NeMo Gym 和 Data Designer,NVIDIA 实际上是在定义行业标准:未来的模型竞争不在于预训练,而在于基于特定领域数据的后训练(Post-training)和强化学习(RL)。此外,Minitron-SSM 和 Jet-Nemotron 等研究表明,NVIDIA 极其关注混合架构(如结合 Transformer 与 SSM)在边缘侧和即时推理中的效率,这直接对标了 Meta Llama 等开源模型在端侧部署的生态位。

NeMo 框架工具与模型(包括 Gym、Data Designer、Parakeet 等)已开放下载或通过 API 调用。

https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/

(@NVIDIA Blog)


###

02 有亮点的产品

1、Mizzen Insight:小时级深度访谈,让企业实时听见用户!

#####

图片

近日,觅深科技(Mizzen AI)宣布完成来自海外机构的种子轮美元融资,并发布第一个产品 Mizzen Insight——国内首个 AI 深访用研平台。该平台将传统需要数周的深度访谈压缩至数小时,实现百倍提速、十倍降本,让深度用户研究首次进入「小时级时代」。

在用户研究领域,深度访谈一直被视为「最难做却最有价值」的用研方式。

Mizzen Insight 通过 AI 完整重写深访流程:自动生成访谈提纲、多线程并发深访、基于情境的实时深度追问、智能聚类与深度洞察分析——一站式完成传统团队数周的工作,让洞察更快、更准、更接近用户真实动机,使深访成为一项真正「随时可启动」能力。

创始人孙克强表示:「当团队随时能听见真实用户的声音,组织的工作方式会发生根本变化。我们希望让用户研究从昂贵的专业流程,变成普惠、实时的基础能力。」

目前,Mizzen Insight 已在出海电商、手机厂商、新能源、汽车科技公司、消费品牌和 SaaS 企业落地。平台也被硬件与健康设备企业及多家创业团队(AI 视频剪辑、内容工具等)用于高频验证需求。客户反馈普遍认为,Mizzen Insight 首次让深访具备「关键决策窗口内可完成」的速度与可靠性。

(@ 品玩)

2、Yoodli 完成 4000 万美元 B 轮融资,AI 驱动的沟通培训平台估值超 3 亿美元
****

图片

AI 驱动的沟通培训初创公司 Yoodli 宣布完成 4000 万美元 B 轮融资,由 WestBridge Capital 领投,估值超 3 亿美元,较六个月前翻三倍。Yoodli 利用 AI 技术提供模拟场景训练,旨在辅助而非取代人类沟通能力。

B 轮融资完成后,Yoodli 将继续扩展 AI 教练、分析和个性化工具,深化在企业学习和专业发展领域的布局,并拓展亚太市场。

(@TechCrunch)

#####

3、Google 发布新一代 XR 设备,推动 AI 与现实场景深度融合

#####

2025年12月9日,在 Google The Android Show 特别节目(XR Edition)上,Google 推出全新 XR 设备矩阵,依托 Android XR 统一平台与 Gemini 大模型,构建了覆盖轻量化 AI 眼镜到旗舰级头显的全场景 XR 生态。

此次发布的 AI 眼镜主打「时尚优先、技术隐形」,与 Warby Parker、Gentle Monster 合作打造两款形态,可实现零食识别、AR 特效生成、旅游导航等多模态交互,还能借助 Glimmer UI 工具包和 Projected Library 快速拓展应用生态。

图片

图片

此外,由 XREAL 承载的 Project Aura 采用分离式计算模块,兼顾便携性与生产力;三星 Galaxy XR 头显则新增拟真形象、旅行模式等功能,并计划实现 2D 内容实时转 3D,为用户提供更沉浸的办公与娱乐体验。Google 此举旨在让计算渗透生活,推动 XR 设备从「工具」向「延伸感官」转变。

(@ 极客公园)

4、TruGen AI 推出视频智能体平台,实现实时、类人交互
****
TruGen AI 推出其视频智能体(Video Agents)平台,旨在通过实时、具备视觉、听觉、记忆和行动能力的 AI 智能体,将人机交互提升至类人水平。该平台强调「AI 必须更像人」,而非仅仅更智能。
****

TruGen AI 已正式上线,并提供实时演示和开发者工具。

相关链接:

https://www.producthunt.com/products/trugen-ai

(@Product Hunt)


###

###

03 有态度的观点 

1、Google DeepMind CEO:扩大 AI 规模是实现 AGI 的关键

#####

图片

据《商业内幕》报道,Google DeepMind CEO 德米斯・哈萨比斯(Demis Hassabis)近日在旧金山举行的 Axios AI+ 峰会上强调:人工智能(AI)的规模化发展必须「推向极致」,这是实现通用人工智能(AGI)的关键路径。

哈萨比斯指出,规模定律(scaling laws)是 AI 进步的核心原则,即「模型越大、数据越多、算力越强,智能水平就越高」。

我们必须把当前 AI 的规模化推向极致,它至少会成为通用人工智能的关键组成部分,甚至可能构成整个 AGI 系统。

AGI 被视为能够像人类一样进行推理和规划的理论型智能系统,是全球科技公司竞相追逐的目标。

不过,哈萨比斯也承认,仅靠规模定律可能不足以完全实现 AGI,未来或许还需要「一到两个额外的突破」。

他强调,规模化存在现实限制:公开数据量有限,增加算力意味着建设更多数据中心,不仅成本高昂,还会对环境造成压力。

与此同时,业界也出现了不同声音。

前 Meta 首席 AI 科学家 Yann LeCun(杨立昆)认为,规模定律并非万能。他在今年 4 月新加坡国立大学的演讲中指出:「大多数真正有趣的问题在规模定律下表现得极其糟糕,你不能简单地认为堆数据和堆算力就能产出更聪明的 AI。」

此前,LeCun 已离开 Meta 创办新公司,致力于研发基于空间数据的「世界模型」,旨在打造能够理解物理世界、具备持久记忆和复杂推理能力的新一代 AI 系统。

( @APPSO)


****

****

04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

#####

1、Future Tech 2026 首发局亮灯仪式

时间:2025年12月20日(周六)下午 1:00

地点:北京·清华科技园

议程:13:30-13:45 生态共建计划发布暨仪式启动;13:45-14:15 神秘嘉宾圆桌;14:15-17:20 项目路演(15 个项目)

图片

图片

详情链接:

https://mp.weixin.qq.com/s/DOPHZn2Ex8sarB5qE8A87A

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流