开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃

01 有话题的技术

#####

#####

「CALM」连续音频建模架构：摒弃了主流音频模型使用的离散 Token 路线，基于 Continuous Audio Language Models 框架，通过 Transformer 直接预测音频 VAE 的连续潜变量，规避了离散编解码器在有限码率下的信息损失。
1-Step 单步采样技术：引入 Lagrangian Self-Distillation 算法实现单步生成，大幅压缩了计算链路，是模型能在 CPU 上高效运行的核心。
5 秒零样本语音克隆：仅需 5 秒参考音频即可捕捉目标音色、情感、口音及声学环境（如混响、麦克风特性），在词错率测试中达到 1.84，优于「F5-TTS」和「DSM」。
端侧部署友好性：模型参数量仅为 100M，对比参数量通常在 1B 以上的同类 LLM 语音模型，显著降低了显存与能效需求，专为笔记本电脑及边缘设备优化。
训练规模与可复现性：基于 8.8 万小时公开英文数据集训练，全面开源代码与技术细节，确保研究与生产环境的透明度。

代码与模型权重已在 GitHub 及「Kyutai」官网开源，支持个人笔记本 CPU 部署。

GitHub:

https://github.com/kyutai-labs/pocket-tts

#####

德克萨斯州研究人员开发了名为「VocalBridge」的语音净化系统，专门用于剥离现有防护工具添加的对抗性噪声。该研究证明，通过在压缩音频表示上运行扩散过程，攻击者可在大规模场景下绕过语音身份验证系统，将已被拦截的「保护音频」还原为可接受的克隆素材。

扩散式净化架构：系统在压缩音频表示而非原始波形上运行，通过逐步消除扰动噪声来分离自然语音特征。该方法在保留语音细节的同时，能有效清除旨在干扰 LLM 或 Transformer 模型识别的噪声。
身份还原率提升：在针对 5 种主流语音防护工具的测试中，身份验证还原率平均达到 28%–45%；在特定语音转换场景下，还原率超过 60%。
时序引导增强：研究发现，仅通过提取音频中的粗略发音时序信息（不依赖转录文本），即可使身份还原成功率额外提升 10 个百分点以上。
对抗自适应防御有效性：即使防护系统已知「VocalBridge」的存在并进行针对性调整，验证系统对净化后样本的接受率仍超过 75%，证明基于噪声扰动的防御思路存在结构性缺陷。
跨数据集的可扩展性：该模型仅需使用无关第三方的辅助语音数据集即可完成训练，攻击者无需获取目标对象的原始语音数据即可实施大规模去保护攻击。

学术研究成果，目前作为验证性原型（PoC）发布，尚未进行商业开源。

( @Help Net Security)

#####

#####

低延迟预测推理：引入下文词汇与标点符号预测功能，在音频流完全输入前预估转录结果，以抵消网络抖动及处理延迟。
上下文衔接与手动提交控制：支持文本调节，模型可基于前一分片内容继续转录；提供手动提交接口，允许开发者精确控制转录片段的封装时机。
多语种动态识别与切换：支持 90 多种语言，具备自动语言检测能力，允许用户在单次会话中途切换语种而无需重启连接或更换模型参数。
高保真音频支持与合规性：原生支持 PCM 和 μ-law 编码格式；针对企业级需求提供 SOC 2、HIPAA 合规支持，并具备零保留模式及欧盟/印度数据驻留选项。
针对复杂环境的鲁棒性：在包含背景噪音及复杂信息的 500 个硬样本测试中，该模型在 30 种常用语言下的平均准确率达到 93.5%。

该模型已通过「ElevenLabs API」正式上线，并同步集成至「ElevenLabs Agents」平台。开发者可按需通过 API 接入流式转录服务。

02 有亮点的产品

#####

#####

财务表现与融资规模：本轮 1.3 亿美元融资使总融资额达 2.15 亿美元。CEO Scott Stephenson 披露公司去年已实现现金流转正，此次融资将用于加速全球扩张及多语言支持，而非维持运营。
收购「OfOne」发力垂直行业：通过收购专注于餐厅驱动窗口的语音平台「OfOne」，Deepgram 获得了订单准确率达 93% 的行业特定方案。此举旨在解决语音 AI 在高噪声点餐环境中的落地难题，避免重蹈竞品此前在大规模应用中的失误。
低延迟交互技术栈：Deepgram 目前提供包含 STT、TTS 以及低延迟「打断处理」的 API，支撑包括 Twilio、Vapi、Granola 在内的 1,300 多家机构。
市场规模预测：分析报告指出语音 AI 市场正以年均 30% 以上的速度增长，预计到 2030 年市场规模将达 140 亿至 200 亿美元。Deepgram 计划通过成为企业和开发者的核心组件，竞争万亿美元级别的 B2B 语音 AI 经济份额。

融资资金已到位，将立即用于增加多语言支持及扩展全球市场；「OfOne」技术已开始整合进入 Deepgram 的行业产品线。