AI测试 微软开源 VibeVoice-ASR 模型,支持一小时长音频处理;苹果首款 AI 设备:AirTag 尺寸胸针,双摄三麦 丨日报

RTE开发者社区 · 2026年01月23日 · 418 次阅读

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、Microsoft 开源 VibeVoice-ASR 语音识别模型:支持 60 分钟单次长音频处理,集成 64K 上下文与热词自定义

图片

图片

Microsoft 发布「VibeVoice-ASR」语音识别模型,突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

  • 60 分钟单次推理能力:放弃传统的短音频切片模式,避免了因切片导致的全局语义丢失和跨片段说话人追踪失败问题。

  • 64K Token 级长上下文支持:利用超长上下文窗口,实现 ASR、Diarization(说话人日志)与 Timestamping(时间戳)的端到端联合输出,生成包含「Who, When, What」的结构化转录文本。

  • Customized Hotwords 动态引导:允许用户在识别时注入特定专有名词、技术术语或背景词汇,显著提升特定领域或低频词的识别准确率。

  • DER 与 cpWER 综合性能优化:通过联合训练,模型在说话人错误率和带时间戳的字错误率等指标上具备竞争优势。

  • 标准化部署环境:支持 NVIDIA PyTorch Container(验证版本 24.07 至 25.12),核心计算依赖 Flash-Attention 以优化超长序列的推理效率。

已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议。

HuggingFace: 

https://huggingface.co/microsoft/VibeVoice-ASR

GitHub: 

https://github.com/microsoft/VibeVoice

( @GitHub)

2、FlashLabs 发布 Chroma 1.0:开源原生 Speech-to-Speech 模型,TTFT 降低至 135ms

FlashLabs 推出「Chroma 1.0」开源端到端的 Speech-to-Speech 大模型。该模型跳过了传统的语音识别(ASR)与合成(TTS)阶段,直接在音频 Token 维度完成推理,为开发者提供了一个可私有化部署的 OpenAI Realtime 模型替代方案。

  • 原生端到端语音架构:弃用「ASR → LLM → TTS」的级联管道,采用单一闭环处理音频 Token。该架构原生支持全双工中断,并能完整保留对话中的语调、情感和节奏。

  • 135ms 极低响应延迟:模型 TTFT(首字音频延迟)小于 150ms;在启用「SGLang」优化后,TTFT 进一步降低至 135ms,实时系数保持在 0.47–0.51 之间,推理速度达实时语速的 2 倍以上。

  • 4B 参数量与高保真克隆:模型基于「Qwen 2.5-Omni-3B」与「Mimi」构建,仅需数秒音频样本即可实现高保真语音克隆。其相似度指标 SIM 达到 0.817,较人类基准(0.73)提升约 11%。

  • 集成双层 RAG 架构:内置双层 RAG 机制,可直接挂载向量数据库与知识图谱,实现由智能体驱动的事实检索与语音生成分离,提升对话准确性。

模型权重(Chroma-4B)与推理代码已在 Hugging Face 和 GitHub 全面开源,支持通过 FlashAI 平台直接部署。

相关链接:

https://www.flashlabs.ai/flashai-voice-agents

HuggingFace: 

https://huggingface.co/FlashLabs/Chroma-4B

( @flashlabsdotai\@X)

3、Inworld AI 发布 TTS-1.5 语音模型:P90 延迟降至 130ms,推理成本仅为同类产品 1/25

图片

「Inworld AI」正式推出 TTS-1.5 语音合成模型,旨在解决实时语音交互中的延迟与成本瓶颈。通过优化强化学习算法,该版本在显著提升表现力的同时,将 P90 延迟压缩至 250ms 以内,并实现了极低廉的定价策略,直接面向大规模商用语音智能体市场。

  • 生产级实时延迟:TTS-1.5 Mini 模型的 P90 首包延迟低于 130ms,Max 模型低于 250ms,响应速度较前代提升约 4 倍,突破了人类自然对话约 300ms 的感知间隔。

  • 稳定性与表现力优化:通过规模化强化学习训练,词错率降低 40%,大幅减少了长文本合成中的幻觉、断句和杂音;同时语音表现力提升 30%。

  • 极具竞争力的定价结构:交互成本低至 0.5 美分/分钟,每百万字符定价为 $5-$10,对比行业头部方案($120+/百万字符)成本降低逾 25 倍。

  • 扩展功能与部署灵活性:支持 15 种语言(重点优化了印地语);专业级声音克隆功能正式开放 API 调用;并为企业用户提供 On-prem(本地化)部署选项。

  • API 平滑迁移:现有开发者可通过更改 modelId 为 inworld-tts-1.5-mini 或 max 实现快速接入,已整合至 Voximplant 等第三方平台。

已正式上线,开发者可通过「Inworld AI」官网 API 或集成合作伙伴平台接入;提供开源/闭源方案及企业级私有化部署。

相关链接:

https://inworld.ai/tts

( @inworld_ai\@X)

4、DeepSeek 新模型「MODEL1」曝光

图片

图片

图片

1 月 21 日下午消息,DeepSeek 于官方 GitHub 仓库更新了一系列 FlashMLA 代码,在这些更新中,一个名为「Model 1」的模型引起了广泛关注。

据悉,目前这个还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。这也不禁引发广大网友猜测,认为 Model 1 很可能就是传闻中 DeepSeek 将于春节前后发布的新模型代号。

最新消息显示,Model1 是 DeepSeek FlashMLA 中支持的两个主要模型架构之一,另一个是 DeepSeek-V3.2。

据推测,MODEL1 很可能是一个高效推理模型,相比 V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对 16K+ 序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对 16K+ 序列优化,适合文档理解、代码分析等长上下文任务。

另外,MODEL1 的硬件实现跨越多个 GPU 架构。在英伟达 H100/H200(SM90 架构)上有两个版本:model1_persistent_h64.cu 用于 64 头配置,model1_persistent_h128.cu 用于 128 头配置。在最新的 B200(SM100 架构)上有专门的 Head64 内核实现,而 SM100 的 Head128 实现仅支持 MODEL1,不支持 V3.2,有人猜测 DeepSeek 为适配英伟达新一代 GPU,专门优化了 MODEL1 的架构。

(@ 雷锋网)

02 有亮点的产品

1、苹果首款 AI 穿戴设备曝光:AirTag 尺寸胸针,双摄、三麦克风

图片

1 月 22 日消息,科技媒体 The Information 发布博文,报道称苹果正在研发一款尺寸类似 AirTag 的「AI 佩戴式胸针」,计划最早于 2027 年发布。

这款设备目前的开发代号尚未公开,但其形态被描述为「类似 AirTag 大小的圆形圆盘」。项目仍处于早期阶段且存在取消风险,不过消息称苹果工程师正全力推进,目标定于 2027 年推向市场。

在硬件规格方面,这款 AI 胸针混合铝合金与玻璃外壳材质,厚度略高于 AirTag。为了实现环境感知,该设备正面集成了两颗摄像头(标准镜头与广角镜头),不仅能拍摄照片,还能实时捕捉用户周边的视频信息。

设备内置了三个麦克风用于精准收音,配备了一个扬声器进行语音反馈,并在边缘设置了一枚实体按键,背部采用了与 Apple Watch 相似的磁吸感应充电接口。

@IT 之家)

2、苹果首款 AI 智能家居中枢爆料:带屏幕、会转头,最早今春登场

图片

科技媒体 The Information 今天发布博文,爆料称苹果计划最快今年春季发布新款智能家居中枢(Home Hub),采用「机器人旋转底座」设计,根据声音或动作让设备自动转向用户。

消息称这款智能家居中枢不仅配备了小型显示屏和高保真扬声器,更引入了具身智能的关键组件「机器人旋转底座」,让设备能够物理转动,改变传统智能音箱被动静止的交互模式。

尽管爆料未详细阐述旋转底座的技术原理,但科技媒体 MacRumors 认为其核心目的是实现「视觉追随」。结合苹果在传感器领域的布局,该设备预计将搭载阵列式传感器,用于精准识别用户在房间内的位置。

例如用户发出语音指令或移动后,底座驱动屏幕自动转向用户,不仅能提供更好的视频通话视角,还能通过物理动作模拟注视感,赋予 AI 助手一种「视觉人格」,从而提升交互的沉浸感与自然度。

发布日期方面,供应链消息指出,其上市时间窗口将与 iOS 26.4 的发布时间高度重合。硬件上的灵动转向配合软件上的更智能 Siri,苹果有望重新定义智能家居的控制中心。

@IT 之家)

3、字节 AI 硬件传人事变动:Oladance 创始人李浩乾或离职,新一代耳机与眼镜曝光

据蓝鲸新闻消息,字节跳动 Flow 旗下 Ocean 团队核心骨干、原 Oladance 创始人李浩乾或将离职。知情人士透露,目前内部人事调整仍存变数,不排除转岗等可能。李浩乾曾任职于 Bose 并带领研发 QC35,后于 2019 年创立 Oladance 主攻开放式耳机。2024 年中旬,字节跳动以约 5000 万美元全资收购 Oladance,李浩乾随团队加入字节,职级定为 5-1,负责代号为「D 线」的 AI 可穿戴设备业务。

在收购完成后,字节跳动迅速整合资源,于 2024 年 10 月推出了首款搭载豆包大模型的智能耳机 Ola Friend,预售价 1199 元。该产品深度集成了豆包的语音交互能力,并于 2025 年 5 月上线了 AI 外教智能体「Owen」,支持英语对话、双语点评及职场模拟等功能,试图通过垂直场景切入教育硬件市场。然而,有消息显示该产品后期的市场反响未达团队预期。

面对硬件赛道的挑战,字节跳动正在加速调整产品布局。供应链信息指出,字节正研发新一代豆包 AI 耳机,由歌尔股份专门设立事业群负责代工,产品核心思路将转向与手机的深度协同。此外,豆包 AI 眼镜(无屏版)预计将于 2026 年第一季度面世,首批规划量约 10 万台,将采用邀请制发售。

(@ 多知)

03 有态度的观点 

1、马斯克喊话「不要让亲人用 ChatGPT」,奥特曼回应:超过 50 人死于 Autopilot

图片

昨天,特斯拉 CEO 伊隆 · 马斯克在 X 转发一则帖子,直言「不要让你的亲人使用 ChatGPT」。该帖子声称 ChatGPT 自 2022 年发布以来,已与 9 起死亡案例相关联。

OpenAI CEO 山姆 · 奥特曼随后对此进行回应,强调 OpenAI 在保护脆弱用户与确保产品可用性之间面临艰难平衡。

他表示「我们需要保护脆弱用户,同时确保所有用户都能从工具中受益」,并指出马斯克此前曾抱怨 ChatGPT 的内容审核「过于严格」。

在回应中,奥特曼还回击了特斯拉汽车的 Autopilot 自动驾驶功能。

他表示,自己曾乘坐搭载该系统的车辆,「第一反应是这远不是特斯拉应该发布的安全产品」,并暗示马斯克旗下 xAI 的 Grok 在内容安全上也存在争议。

《商业内幕》报道指出,围绕 ChatGPT 的安全性,OpenAI 目前已面临至少 8 起与心理健康恶化、自杀或暴力事件相关的诉讼;

而特斯拉 Autopilot 也卷入多起致死事故诉讼,包括一起发生于 2019 年、最终由陪审团裁定特斯拉承担 33% 责任的案件。

这场公开争执发生在双方长期法律纠纷的背景下。马斯克此前起诉了奥特曼及 OpenAI 高层,指控其偏离最初的非营利使命,并称自己曾为 OpenAI 的早期发展投入 3800 万美元。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册