开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 瓒 an、@ 鲍勃**
「VoxCPM」项目发布了其 tokenizer-free 文本转语音(TTS)系统 1.5 版本。该更新通过将音频采样率提升至 44.1kHz 显著改善了语音克隆的保真度,并通过降低 LM Token 率将计算效率提高了一倍。
音频采样率提升至 44.1kHz: 新版本将音频 VAE 的采样率从 16kHz 提升至 44.1kHz(CD 级音质),能够保留更多高频细节,生成保真度更高的语音,尤其是在零样本语音克隆任务中。
LM Token 率减半至 6.25Hz: 语言模型的 Token 生成速率从 12.5Hz 降低至 6.25Hz,这意味着在生成同样时长的音频时,所需的计算步骤减半,显著降低了推理成本和算力需求。
Tokenizer-Free 架构: 模型不依赖将语音转换为离散 token 的传统方法,而是采用端到端的扩散自回归架构,在连续空间中直接从文本生成语音表征。该架构基于「MiniCPM-4」骨干,旨在减少离散化带来的信息损失。
低至 0.17 的实时率(RTF): 在消费级 NVIDIA RTX 4090 GPU 上,模型支持流式合成,其实时因子(Real-Time Factor)低至 0.17,使其具备在本地环境中进行实时应用的性能。
Hugging Face:
https://huggingface.co/openbmb/VoxCPM1.5
(@Hugging Face)
#####
智谱深夜开源其核心 AI Agent 模型 AutoGLM。该模型被业界视为全球首个具备「Phone Use」(手机操作)能力的 AI Agent,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。此次开源意味着硬件厂商、手机厂商和开发者均可基于 AutoGLM,在自己的设备或系统中复现一个能「看懂」屏幕、并模拟真人进行点击、输入、滑动的 AI 助手。目前,AutoGLM 已支持微信、淘宝、抖音、美团等超过 50 个高频中文应用的核心场景,其自动化操作能力与此前引发热议的「豆包手机」演示相似。
开源地址:
https://github.com/zai-org/Open-AutoGLM
( @ 科创板日报、@ 智谱)
Audio Flamingo 3(SOTA 音频理解):全开源的大型音频语言模型,支持跨语音、声音和音乐进行推理。模型上下文窗口支持处理长达 10 分钟 的音频片段,并在超过 20 个基准测试中取得当前最佳(SOTA)结果。
NeMo Gym(RLVR 训练加速):开源强化学习库,专为 LLM 训练设计。它包含现成的训练环境,重点支持 RLVR(Reinforcement Learning from Verifiable Reward),简化了从反馈中优化模型的流程。
端到端语音流处理模型:
混合架构与高效推理研究:
合成数据工具链开源:「NeMo Data Designer」现以 Apache 2.0 协议开源。这是一个端到端工具包,用于生成、验证和精炼高质量的合成数据集,辅助生成式 AI 的开发。
NVIDIA 正在从单纯的算力提供商向「AI 开发基础设施」垄断者转型。通过开源 NeMo Gym 和 Data Designer,NVIDIA 实际上是在定义行业标准:未来的模型竞争不在于预训练,而在于基于特定领域数据的后训练(Post-training)和强化学习(RL)。此外,Minitron-SSM 和 Jet-Nemotron 等研究表明,NVIDIA 极其关注混合架构(如结合 Transformer 与 SSM)在边缘侧和即时推理中的效率,这直接对标了 Meta Llama 等开源模型在端侧部署的生态位。
NeMo 框架工具与模型(包括 Gym、Data Designer、Parakeet 等)已开放下载或通过 API 调用。
https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/
(@NVIDIA Blog)
###
#####
近日,觅深科技(Mizzen AI)宣布完成来自海外机构的种子轮美元融资,并发布第一个产品 Mizzen Insight——国内首个 AI 深访用研平台。该平台将传统需要数周的深度访谈压缩至数小时,实现百倍提速、十倍降本,让深度用户研究首次进入「小时级时代」。
在用户研究领域,深度访谈一直被视为「最难做却最有价值」的用研方式。
Mizzen Insight 通过 AI 完整重写深访流程:自动生成访谈提纲、多线程并发深访、基于情境的实时深度追问、智能聚类与深度洞察分析——一站式完成传统团队数周的工作,让洞察更快、更准、更接近用户真实动机,使深访成为一项真正「随时可启动」能力。
创始人孙克强表示:「当团队随时能听见真实用户的声音,组织的工作方式会发生根本变化。我们希望让用户研究从昂贵的专业流程,变成普惠、实时的基础能力。」
目前,Mizzen Insight 已在出海电商、手机厂商、新能源、汽车科技公司、消费品牌和 SaaS 企业落地。平台也被硬件与健康设备企业及多家创业团队(AI 视频剪辑、内容工具等)用于高频验证需求。客户反馈普遍认为,Mizzen Insight 首次让深访具备「关键决策窗口内可完成」的速度与可靠性。
(@ 品玩)
AI 驱动的沟通培训初创公司 Yoodli 宣布完成 4000 万美元 B 轮融资,由 WestBridge Capital 领投,估值超 3 亿美元,较六个月前翻三倍。Yoodli 利用 AI 技术提供模拟场景训练,旨在辅助而非取代人类沟通能力。
融资与估值: 完成 4000 万美元 B 轮融资,总融资金额近 6000 万美元。估值超 3 亿美元,是六个月前水平的三倍多。
AI 辅助沟通训练: Yoodli 利用 AI 模拟销售电话、领导力辅导、面试、反馈会议等场景,提供结构化、可重复的练习,帮助用户提升口语表达能力。
「赋能而非取代」的理念: 联合创始人 Varun Puri(前 Google X 成员)强调 Yoodli 的 AI 技术旨在辅助人类,而非用机器取代,认为人类的真实性、脆弱性反馈是 AI 无法替代的。
企业级应用: 现已从面向消费者的产品转变为企业培训解决方案,为高管(go-to-market enablement)、合作伙伴认证和管理层辅导提供 AI 角色扮演和体验式学习工具。
客户包括: Google, Snowflake, Databricks, RingCentral, Sandler Sales, Franklin Covey, LHH 等。
技术特点:
商业指标: 报告期内,平台角色扮演次数和用户练习总时长增长 50%,平均经常性收入(ARR)增长 900%(具体数字未披露)。
团队扩张: 近期引入前 Tableau 和 Salesforce 的 Josh Vitello(CRO)、前 Remitly CFO Andy Larson(CFO)以及前 Tableau CPO Padmashree Koneti(CPO)。
B 轮融资完成后,Yoodli 将继续扩展 AI 教练、分析和个性化工具,深化在企业学习和专业发展领域的布局,并拓展亚太市场。
#####
#####
2025年12月9日,在 Google The Android Show 特别节目(XR Edition)上,Google 推出全新 XR 设备矩阵,依托 Android XR 统一平台与 Gemini 大模型,构建了覆盖轻量化 AI 眼镜到旗舰级头显的全场景 XR 生态。
此次发布的 AI 眼镜主打「时尚优先、技术隐形」,与 Warby Parker、Gentle Monster 合作打造两款形态,可实现零食识别、AR 特效生成、旅游导航等多模态交互,还能借助 Glimmer UI 工具包和 Projected Library 快速拓展应用生态。
此外,由 XREAL 承载的 Project Aura 采用分离式计算模块,兼顾便携性与生产力;三星 Galaxy XR 头显则新增拟真形象、旅行模式等功能,并计划实现 2D 内容实时转 3D,为用户提供更沉浸的办公与娱乐体验。Google 此举旨在让计算渗透生活,推动 XR 设备从「工具」向「延伸感官」转变。
(@ 极客公园)
核心产品: TruGen AI 平台,允许开发者构建具备「人脸」的 AI 视频智能体。
类人交互:
关键技术与功能:
应用场景设想:
TruGen AI 已正式上线,并提供实时演示和开发者工具。
相关链接:
https://www.producthunt.com/products/trugen-ai
(@Product Hunt)
###
###
#####
据《商业内幕》报道,Google DeepMind CEO 德米斯・哈萨比斯(Demis Hassabis)近日在旧金山举行的 Axios AI+ 峰会上强调:人工智能(AI)的规模化发展必须「推向极致」,这是实现通用人工智能(AGI)的关键路径。
哈萨比斯指出,规模定律(scaling laws)是 AI 进步的核心原则,即「模型越大、数据越多、算力越强,智能水平就越高」。
我们必须把当前 AI 的规模化推向极致,它至少会成为通用人工智能的关键组成部分,甚至可能构成整个 AGI 系统。
AGI 被视为能够像人类一样进行推理和规划的理论型智能系统,是全球科技公司竞相追逐的目标。
不过,哈萨比斯也承认,仅靠规模定律可能不足以完全实现 AGI,未来或许还需要「一到两个额外的突破」。
他强调,规模化存在现实限制:公开数据量有限,增加算力意味着建设更多数据中心,不仅成本高昂,还会对环境造成压力。
与此同时,业界也出现了不同声音。
前 Meta 首席 AI 科学家 Yann LeCun(杨立昆)认为,规模定律并非万能。他在今年 4 月新加坡国立大学的演讲中指出:「大多数真正有趣的问题在规模定律下表现得极其糟糕,你不能简单地认为堆数据和堆算力就能产出更聪明的 AI。」
此前,LeCun 已离开 Meta 创办新公司,致力于研发基于空间数据的「世界模型」,旨在打造能够理解物理世界、具备持久记忆和复杂推理能力的新一代 AI 系统。
( @APPSO)
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
#####
时间:2025年12月20日(周六)下午 1:00
地点:北京·清华科技园
议程:13:30-13:45 生态共建计划发布暨仪式启动;13:45-14:15 神秘嘉宾圆桌;14:15-17:20 项目路演(15 个项目)
详情链接:
https://mp.weixin.qq.com/s/DOPHZn2Ex8sarB5qE8A87A
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考