图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、Microsoft 开源 VibeVoice-ASR 语音识别模型:支持 60 分钟单次长音频处理,集成 64K 上下文与热词自定义

图片

图片

Microsoft 发布「VibeVoice-ASR」语音识别模型,突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议。

HuggingFace: 

https://huggingface.co/microsoft/VibeVoice-ASR

GitHub: 

https://github.com/microsoft/VibeVoice

( @GitHub)

2、FlashLabs 发布 Chroma 1.0:开源原生 Speech-to-Speech 模型,TTFT 降低至 135ms

FlashLabs 推出「Chroma 1.0」开源端到端的 Speech-to-Speech 大模型。该模型跳过了传统的语音识别(ASR)与合成(TTS)阶段,直接在音频 Token 维度完成推理,为开发者提供了一个可私有化部署的 OpenAI Realtime 模型替代方案。

模型权重(Chroma-4B)与推理代码已在 Hugging Face 和 GitHub 全面开源,支持通过 FlashAI 平台直接部署。

相关链接:

https://www.flashlabs.ai/flashai-voice-agents

HuggingFace: 

https://huggingface.co/FlashLabs/Chroma-4B

( @flashlabsdotai\@X)

3、Inworld AI 发布 TTS-1.5 语音模型:P90 延迟降至 130ms,推理成本仅为同类产品 1/25

图片

「Inworld AI」正式推出 TTS-1.5 语音合成模型,旨在解决实时语音交互中的延迟与成本瓶颈。通过优化强化学习算法,该版本在显著提升表现力的同时,将 P90 延迟压缩至 250ms 以内,并实现了极低廉的定价策略,直接面向大规模商用语音智能体市场。

已正式上线,开发者可通过「Inworld AI」官网 API 或集成合作伙伴平台接入;提供开源/闭源方案及企业级私有化部署。

相关链接:

https://inworld.ai/tts

( @inworld_ai\@X)

4、DeepSeek 新模型「MODEL1」曝光

图片

图片

图片

1 月 21 日下午消息,DeepSeek 于官方 GitHub 仓库更新了一系列 FlashMLA 代码,在这些更新中,一个名为「Model 1」的模型引起了广泛关注。

据悉,目前这个还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。这也不禁引发广大网友猜测,认为 Model 1 很可能就是传闻中 DeepSeek 将于春节前后发布的新模型代号。

最新消息显示,Model1 是 DeepSeek FlashMLA 中支持的两个主要模型架构之一,另一个是 DeepSeek-V3.2。

据推测,MODEL1 很可能是一个高效推理模型,相比 V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对 16K+ 序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对 16K+ 序列优化,适合文档理解、代码分析等长上下文任务。

另外,MODEL1 的硬件实现跨越多个 GPU 架构。在英伟达 H100/H200(SM90 架构)上有两个版本:model1_persistent_h64.cu 用于 64 头配置,model1_persistent_h128.cu 用于 128 头配置。在最新的 B200(SM100 架构)上有专门的 Head64 内核实现,而 SM100 的 Head128 实现仅支持 MODEL1,不支持 V3.2,有人猜测 DeepSeek 为适配英伟达新一代 GPU,专门优化了 MODEL1 的架构。

(@ 雷锋网)

02 有亮点的产品

1、苹果首款 AI 穿戴设备曝光:AirTag 尺寸胸针,双摄、三麦克风

图片

1 月 22 日消息,科技媒体 The Information 发布博文,报道称苹果正在研发一款尺寸类似 AirTag 的「AI 佩戴式胸针」,计划最早于 2027 年发布。

这款设备目前的开发代号尚未公开,但其形态被描述为「类似 AirTag 大小的圆形圆盘」。项目仍处于早期阶段且存在取消风险,不过消息称苹果工程师正全力推进,目标定于 2027 年推向市场。

在硬件规格方面,这款 AI 胸针混合铝合金与玻璃外壳材质,厚度略高于 AirTag。为了实现环境感知,该设备正面集成了两颗摄像头(标准镜头与广角镜头),不仅能拍摄照片,还能实时捕捉用户周边的视频信息。

设备内置了三个麦克风用于精准收音,配备了一个扬声器进行语音反馈,并在边缘设置了一枚实体按键,背部采用了与 Apple Watch 相似的磁吸感应充电接口。

@IT 之家)

2、苹果首款 AI 智能家居中枢爆料:带屏幕、会转头,最早今春登场

图片

科技媒体 The Information 今天发布博文,爆料称苹果计划最快今年春季发布新款智能家居中枢(Home Hub),采用「机器人旋转底座」设计,根据声音或动作让设备自动转向用户。

消息称这款智能家居中枢不仅配备了小型显示屏和高保真扬声器,更引入了具身智能的关键组件「机器人旋转底座」,让设备能够物理转动,改变传统智能音箱被动静止的交互模式。

尽管爆料未详细阐述旋转底座的技术原理,但科技媒体 MacRumors 认为其核心目的是实现「视觉追随」。结合苹果在传感器领域的布局,该设备预计将搭载阵列式传感器,用于精准识别用户在房间内的位置。

例如用户发出语音指令或移动后,底座驱动屏幕自动转向用户,不仅能提供更好的视频通话视角,还能通过物理动作模拟注视感,赋予 AI 助手一种「视觉人格」,从而提升交互的沉浸感与自然度。

发布日期方面,供应链消息指出,其上市时间窗口将与 iOS 26.4 的发布时间高度重合。硬件上的灵动转向配合软件上的更智能 Siri,苹果有望重新定义智能家居的控制中心。

@IT 之家)

3、字节 AI 硬件传人事变动:Oladance 创始人李浩乾或离职,新一代耳机与眼镜曝光

据蓝鲸新闻消息,字节跳动 Flow 旗下 Ocean 团队核心骨干、原 Oladance 创始人李浩乾或将离职。知情人士透露,目前内部人事调整仍存变数,不排除转岗等可能。李浩乾曾任职于 Bose 并带领研发 QC35,后于 2019 年创立 Oladance 主攻开放式耳机。2024 年中旬,字节跳动以约 5000 万美元全资收购 Oladance,李浩乾随团队加入字节,职级定为 5-1,负责代号为「D 线」的 AI 可穿戴设备业务。

在收购完成后,字节跳动迅速整合资源,于 2024 年 10 月推出了首款搭载豆包大模型的智能耳机 Ola Friend,预售价 1199 元。该产品深度集成了豆包的语音交互能力,并于 2025 年 5 月上线了 AI 外教智能体「Owen」,支持英语对话、双语点评及职场模拟等功能,试图通过垂直场景切入教育硬件市场。然而,有消息显示该产品后期的市场反响未达团队预期。

面对硬件赛道的挑战,字节跳动正在加速调整产品布局。供应链信息指出,字节正研发新一代豆包 AI 耳机,由歌尔股份专门设立事业群负责代工,产品核心思路将转向与手机的深度协同。此外,豆包 AI 眼镜(无屏版)预计将于 2026 年第一季度面世,首批规划量约 10 万台,将采用邀请制发售。

(@ 多知)

03 有态度的观点 

1、马斯克喊话「不要让亲人用 ChatGPT」,奥特曼回应:超过 50 人死于 Autopilot

图片

昨天,特斯拉 CEO 伊隆 · 马斯克在 X 转发一则帖子,直言「不要让你的亲人使用 ChatGPT」。该帖子声称 ChatGPT 自 2022 年发布以来,已与 9 起死亡案例相关联。

OpenAI CEO 山姆 · 奥特曼随后对此进行回应,强调 OpenAI 在保护脆弱用户与确保产品可用性之间面临艰难平衡。

他表示「我们需要保护脆弱用户,同时确保所有用户都能从工具中受益」,并指出马斯克此前曾抱怨 ChatGPT 的内容审核「过于严格」。

在回应中,奥特曼还回击了特斯拉汽车的 Autopilot 自动驾驶功能。

他表示,自己曾乘坐搭载该系统的车辆,「第一反应是这远不是特斯拉应该发布的安全产品」,并暗示马斯克旗下 xAI 的 Grok 在内容安全上也存在争议。

《商业内幕》报道指出,围绕 ChatGPT 的安全性,OpenAI 目前已面临至少 8 起与心理健康恶化、自杀或暴力事件相关的诉讼;

而特斯拉 Autopilot 也卷入多起致死事故诉讼,包括一起发生于 2019 年、最终由陪审团裁定特斯拉承担 33% 责任的案件。

这场公开争执发生在双方长期法律纠纷的背景下。马斯克此前起诉了奥特曼及 OpenAI 高层,指控其偏离最初的非营利使命,并称自己曾为 OpenAI 的早期发展投入 3800 万美元。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流