AI测试 Kyutai 开源轻量化模型 Pocket TTS ;Deepgram C 轮融资估值达 13 亿美元,收购餐饮 AI 公司丨日报

RTE开发者社区 · 2026年01月15日 · 221 次阅读

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、「Kyutai」发布 Pocket TTS:100M 参数轻量化模型,支持 5s 样本零样本语音克隆与 CPU 实时推理

#####

「Kyutai」推出开源 TTS 模型「Pocket TTS」,通过「CALM」架构在 100M 参数规模下实现了高质量语音克隆。该模型摆脱了对 GPU 的依赖,可在普通笔记本 CPU 上实现超实时推理,解决了小型模型克隆能力弱与大型模型算力成本高的行业痛点。

#####

  • 「CALM」连续音频建模架构:摒弃了主流音频模型使用的离散 Token 路线,基于 Continuous Audio Language Models 框架,通过 Transformer 直接预测音频 VAE 的连续潜变量,规避了离散编解码器在有限码率下的信息损失。

  • 1-Step 单步采样技术:引入 Lagrangian Self-Distillation 算法实现单步生成,大幅压缩了计算链路,是模型能在 CPU 上高效运行的核心。

  • 5 秒零样本语音克隆:仅需 5 秒参考音频即可捕捉目标音色、情感、口音及声学环境(如混响、麦克风特性),在词错率测试中达到 1.84,优于「F5-TTS」和「DSM」。

  • 端侧部署友好性:模型参数量仅为 100M,对比参数量通常在 1B 以上的同类 LLM 语音模型,显著降低了显存与能效需求,专为笔记本电脑及边缘设备优化。

  • 训练规模与可复现性:基于 8.8 万小时公开英文数据集训练,全面开源代码与技术细节,确保研究与生产环境的透明度。

代码与模型权重已在 GitHub 及「Kyutai」官网开源,支持个人笔记本 CPU 部署。

GitHub: 

https://github.com/kyutai-labs/pocket-tts

相关链接:

https://kyutai.org/blog/2026-01-13-pocket-tts

( @kyutai_labs\@X)

2、VocalBridge 攻破扰动式语音防护:利用扩散模型实现最高 60% 身份特征还原率

#####

图片

德克萨斯州研究人员开发了名为「VocalBridge」的语音净化系统,专门用于剥离现有防护工具添加的对抗性噪声。该研究证明,通过在压缩音频表示上运行扩散过程,攻击者可在大规模场景下绕过语音身份验证系统,将已被拦截的「保护音频」还原为可接受的克隆素材。

  • 扩散式净化架构:系统在压缩音频表示而非原始波形上运行,通过逐步消除扰动噪声来分离自然语音特征。该方法在保留语音细节的同时,能有效清除旨在干扰 LLM 或 Transformer 模型识别的噪声。

  • 身份还原率提升:在针对 5 种主流语音防护工具的测试中,身份验证还原率平均达到 28%–45%;在特定语音转换场景下,还原率超过 60%。

  • 时序引导增强:研究发现,仅通过提取音频中的粗略发音时序信息(不依赖转录文本),即可使身份还原成功率额外提升 10 个百分点以上。

  • 对抗自适应防御有效性:即使防护系统已知「VocalBridge」的存在并进行针对性调整,验证系统对净化后样本的接受率仍超过 75%,证明基于噪声扰动的防御思路存在结构性缺陷。

  • 跨数据集的可扩展性:该模型仅需使用无关第三方的辅助语音数据集即可完成训练,攻击者无需获取目标对象的原始语音数据即可实施大规模去保护攻击。

学术研究成果,目前作为验证性原型(PoC)发布,尚未进行商业开源。

( @Help Net Security)

3、ElevenLabs 发布「Scribe v2 Realtime」:延迟低于 150ms,支持预测性推理与 90+ 语言

#####

「ElevenLabs」发布实时语音转文字模型「Scribe v2 Realtime」,旨在解决交互式 AI 在语音转录阶段的高延迟瓶颈。该模型将端到端延迟压缩至 150ms 以内,通过引入预测性机制提升了智能体的响应速度与多轮对话的连贯性。

#####

  • 低延迟预测推理:引入下文词汇与标点符号预测功能,在音频流完全输入前预估转录结果,以抵消网络抖动及处理延迟。

  • 上下文衔接与手动提交控制:支持文本调节,模型可基于前一分片内容继续转录;提供手动提交接口,允许开发者精确控制转录片段的封装时机。

  • 多语种动态识别与切换:支持 90 多种语言,具备自动语言检测能力,允许用户在单次会话中途切换语种而无需重启连接或更换模型参数。

  • 高保真音频支持与合规性:原生支持 PCM 和 μ-law 编码格式;针对企业级需求提供 SOC 2、HIPAA 合规支持,并具备零保留模式及欧盟/印度数据驻留选项。

  • 针对复杂环境的鲁棒性:在包含背景噪音及复杂信息的 500 个硬样本测试中,该模型在 30 种常用语言下的平均准确率达到 93.5%。

该模型已通过「ElevenLabs API」正式上线,并同步集成至「ElevenLabs Agents」平台。开发者可按需通过 API 接入流式转录服务。

( @ElevenLabs Blog)


02 有亮点的产品

****

1、Deepgram 完成 1.3 亿美元 C 轮融资:估值达 13 亿美元,收购餐饮 AI 公司「OfOne」

#####

语音 AI 基础设施供应商「Deepgram」宣布完成由 AVP 领投的 1.3 亿美元 C 轮融资,投后估值升至 13 亿美元。公司同步确认收购 YC 孵化的 AI 创业公司「OfOne」,旨在利用其技术进军餐饮自动化领域,特别是快餐店的自动点餐场景。

#####

  • 财务表现与融资规模:本轮 1.3 亿美元融资使总融资额达 2.15 亿美元。CEO Scott Stephenson 披露公司去年已实现现金流转正,此次融资将用于加速全球扩张及多语言支持,而非维持运营。

  • 收购「OfOne」发力垂直行业:通过收购专注于餐厅驱动窗口的语音平台「OfOne」,Deepgram 获得了订单准确率达 93% 的行业特定方案。此举旨在解决语音 AI 在高噪声点餐环境中的落地难题,避免重蹈竞品此前在大规模应用中的失误。

  • 低延迟交互技术栈:Deepgram 目前提供包含 STT、TTS 以及低延迟「打断处理」的 API,支撑包括 Twilio、Vapi、Granola 在内的 1,300 多家机构。

  • 市场规模预测:分析报告指出语音 AI 市场正以年均 30% 以上的速度增长,预计到 2030 年市场规模将达 140 亿至 200 亿美元。Deepgram 计划通过成为企业和开发者的核心组件,竞争万亿美元级别的 B2B 语音 AI 经济份额。

融资资金已到位,将立即用于增加多语言支持及扩展全球市场;「OfOne」技术已开始整合进入 Deepgram 的行业产品线。

( @TechCrunch)

2、M5Stack 发起「StackChan」众筹:全开源 AI 桌面机器人,支持 MicroPython 与 Arduino 开发

#####

#####

M5Stack 在 Kickstarter 发起开源 AI 机器人「StackChan」众筹项目。该设备旨在通过软硬件全开源架构,为开发者提供一个可定制的桌面级 AI 智能体硬件平台,实现语音交互、IoT 控制及多模态反馈。

#####

  • 全栈开源架构:提供完整的固件、软件源代码及硬件设计文件,允许开发者从底层修改行为逻辑或自行打印外壳。

  • 多开发环境兼容:原生支持 MicroPython、Arduino 及 Open I/O 接口,方便接入「M5Stack」现有的模块化传感器生态系统。

  • 集成 AI 交互引擎:内置 AI 语音助手功能,支持实时语音对话、触控感应、视觉跟随,并能通过专用 App 切换为远程通信 Avatar 模式。

  • IoT 指令中枢能力:支持通过 API 或语音指令控制第三方智能家居设备,可作为物理层面的智能体终端执行自动化任务。

  • 社区驱动的共创模式:支持用户下载并部署社区分享的性格预设与表情包,实现软硬件的功能解耦。

项目正在 Kickstarter 进行众筹(已获 1400% 超额认缴),众筹活动将于2026年2月12日截止,提供多种 DIY 套件或成品选择。

相关链接:

https://www.kickstarter.com/projects/m5stack/stackchan-the-first-co-created-open-source-ai-desktop-robot

( @Kickstarter)

#####

#####

3、豆包 App 上线 AI 老师「豆包爱学」功能

#####

图片

昨天,豆包官宣上线全新 AI 老师「豆包爱学」功能。据悉,该功能最早于去年 9 月在独立的豆包爱学 APP 中上线,此次正式整合进豆包 App 中。

在主应用底部功能栏进入「豆包爱学」后,用户可通过文字、语音或拍照上传题目等方式提问,AI 老师将结合智能板书、实时互动问答与知识延伸讲解进行答疑,还可随时发起追问。

该强调深度讲解与启发式思考。例如在讲解《兰亭集序》时,AI 老师会从雅集现场、传世文字、书法成就等多个维度展开,并提出「如果《兰亭集序》没有那么高的书法成就,它还能流传千年吗?」等问题,引导用户进一步思考。

在多模态能力上,「豆包爱学」可在讲解过程中搜索或生成图片,使知识呈现更具可视化效果。

( @APPSO)

03 有态度的观点 


1、张文宏医生:拒绝将 AI 引入病历系统,担忧年轻医生能力退化

#####

图片

近日,复旦大学教授、国家传染病医学中心(上海)主任张文宏在香港高山书院十周年论坛上明确表示,反对将 AI 系统性引入医院病历系统及核心诊疗流程

张文宏指出,他本人会在处理大量病例时使用 AI 进行「初筛」,但凭借长期积累的临床经验,能够快速识别 AI 的错误。

他强调,真正的风险在于年轻医生可能因依赖 AI 而缺乏系统训练,无法判断 AI 诊断的对错

他表示,医生从实习到住院医师再到主治的成长路径,本质上依赖大量病例积累与独立判断能力的形成,而 AI 若介入病历书写与诊断核心环节,将削弱这一能力培养。

尽管态度审慎,张文宏并未否定 AI 在医疗体系中的价值。他认为,AI 在文献检索、病例初筛、辅助决策等非核心环节具有积极作用,但必须确保医生保有最终决策权与专业主导权。

与此同时,北京协和医院正在试点的「精准预约」模式也被多家媒体提及。该模式通过 AI 初筛与人工复核结合的方式,提高医患匹配效率,减少挂号错配与资源浪费。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册