图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、「Kyutai」发布 Pocket TTS:100M 参数轻量化模型,支持 5s 样本零样本语音克隆与 CPU 实时推理

#####

「Kyutai」推出开源 TTS 模型「Pocket TTS」,通过「CALM」架构在 100M 参数规模下实现了高质量语音克隆。该模型摆脱了对 GPU 的依赖,可在普通笔记本 CPU 上实现超实时推理,解决了小型模型克隆能力弱与大型模型算力成本高的行业痛点。

#####

代码与模型权重已在 GitHub 及「Kyutai」官网开源,支持个人笔记本 CPU 部署。

GitHub: 

https://github.com/kyutai-labs/pocket-tts

相关链接:

https://kyutai.org/blog/2026-01-13-pocket-tts

( @kyutai_labs\@X)

2、VocalBridge 攻破扰动式语音防护:利用扩散模型实现最高 60% 身份特征还原率

#####

图片

德克萨斯州研究人员开发了名为「VocalBridge」的语音净化系统,专门用于剥离现有防护工具添加的对抗性噪声。该研究证明,通过在压缩音频表示上运行扩散过程,攻击者可在大规模场景下绕过语音身份验证系统,将已被拦截的「保护音频」还原为可接受的克隆素材。

学术研究成果,目前作为验证性原型(PoC)发布,尚未进行商业开源。

( @Help Net Security)

3、ElevenLabs 发布「Scribe v2 Realtime」:延迟低于 150ms,支持预测性推理与 90+ 语言

#####

「ElevenLabs」发布实时语音转文字模型「Scribe v2 Realtime」,旨在解决交互式 AI 在语音转录阶段的高延迟瓶颈。该模型将端到端延迟压缩至 150ms 以内,通过引入预测性机制提升了智能体的响应速度与多轮对话的连贯性。

#####

该模型已通过「ElevenLabs API」正式上线,并同步集成至「ElevenLabs Agents」平台。开发者可按需通过 API 接入流式转录服务。

( @ElevenLabs Blog)


02 有亮点的产品

****

1、Deepgram 完成 1.3 亿美元 C 轮融资:估值达 13 亿美元,收购餐饮 AI 公司「OfOne」

#####

语音 AI 基础设施供应商「Deepgram」宣布完成由 AVP 领投的 1.3 亿美元 C 轮融资,投后估值升至 13 亿美元。公司同步确认收购 YC 孵化的 AI 创业公司「OfOne」,旨在利用其技术进军餐饮自动化领域,特别是快餐店的自动点餐场景。

#####

融资资金已到位,将立即用于增加多语言支持及扩展全球市场;「OfOne」技术已开始整合进入 Deepgram 的行业产品线。

( @TechCrunch)

2、M5Stack 发起「StackChan」众筹:全开源 AI 桌面机器人,支持 MicroPython 与 Arduino 开发

#####

#####

M5Stack 在 Kickstarter 发起开源 AI 机器人「StackChan」众筹项目。该设备旨在通过软硬件全开源架构,为开发者提供一个可定制的桌面级 AI 智能体硬件平台,实现语音交互、IoT 控制及多模态反馈。

#####

项目正在 Kickstarter 进行众筹(已获 1400% 超额认缴),众筹活动将于2026年2月12日截止,提供多种 DIY 套件或成品选择。

相关链接:

https://www.kickstarter.com/projects/m5stack/stackchan-the-first-co-created-open-source-ai-desktop-robot

( @Kickstarter)

#####

#####

3、豆包 App 上线 AI 老师「豆包爱学」功能

#####

图片

昨天,豆包官宣上线全新 AI 老师「豆包爱学」功能。据悉,该功能最早于去年 9 月在独立的豆包爱学 APP 中上线,此次正式整合进豆包 App 中。

在主应用底部功能栏进入「豆包爱学」后,用户可通过文字、语音或拍照上传题目等方式提问,AI 老师将结合智能板书、实时互动问答与知识延伸讲解进行答疑,还可随时发起追问。

该强调深度讲解与启发式思考。例如在讲解《兰亭集序》时,AI 老师会从雅集现场、传世文字、书法成就等多个维度展开,并提出「如果《兰亭集序》没有那么高的书法成就,它还能流传千年吗?」等问题,引导用户进一步思考。

在多模态能力上,「豆包爱学」可在讲解过程中搜索或生成图片,使知识呈现更具可视化效果。

( @APPSO)

03 有态度的观点 


1、张文宏医生:拒绝将 AI 引入病历系统,担忧年轻医生能力退化

#####

图片

近日,复旦大学教授、国家传染病医学中心(上海)主任张文宏在香港高山书院十周年论坛上明确表示,反对将 AI 系统性引入医院病历系统及核心诊疗流程

张文宏指出,他本人会在处理大量病例时使用 AI 进行「初筛」,但凭借长期积累的临床经验,能够快速识别 AI 的错误。

他强调,真正的风险在于年轻医生可能因依赖 AI 而缺乏系统训练,无法判断 AI 诊断的对错

他表示,医生从实习到住院医师再到主治的成长路径,本质上依赖大量病例积累与独立判断能力的形成,而 AI 若介入病历书写与诊断核心环节,将削弱这一能力培养。

尽管态度审慎,张文宏并未否定 AI 在医疗体系中的价值。他认为,AI 在文献检索、病例初筛、辅助决策等非核心环节具有积极作用,但必须确保医生保有最终决策权与专业主导权。

与此同时,北京协和医院正在试点的「精准预约」模式也被多家媒体提及。该模式通过 AI 初筛与人工复核结合的方式,提高医患匹配效率,减少挂号错配与资源浪费。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流