AI测试 OpenAI 低调收购语音克隆团队；李沐团队 Boson AI 发布单图实时生成数字人，单卡 H100 支持 8 路并发丨日报

RTE开发者社区 · May 19, 2026 · 2245 hits

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、Voicebox：基于 Tauri 的全栈本地 AI 语音工作站，集成 7 种 TTS 引擎与 MCP 协议

Voicebox 是一款开源、本地优先的 AI 语音 I/O 集成套件，旨在提供 ElevenLabs（输出）与 WisprFlow（输入）的本地化替代方案。该工具通过 Tauri（Rust）构建，支持多达 7 种 TTS 引擎和 Whisper STT，并在本地集成 LLM 以实现语音克隆、智能体（agent）交互及音频后处理。

多引擎 TTS 矩阵：集成 Kokoro（82M 极小模型，支持高速 CPU 推理）、Qwen3-TTS（支持自然语言描述控制语速/语气）以及 LuxTTS（1GB VRAM 占用，150x 实时采样率）等 7 种引擎，支持 23 种语言及零样本（Zero-shot）克隆。
硬件原生加速方案：底层支持 macOS（MLX/Metal）、Windows（CUDA/DirectML）及 Linux（ROCm/Intel Arc）；在 Apple Silicon 上通过 Neural Engine 可实现 4-5 倍推理加速。
MCP 协议与智能体集成：内置 MCP Server，允许 Claude Code、Cursor 及 Cline 等智能体通过 voicebox.speak 工具调用克隆语音；支持 API 访问（REST API）以便集成至开发者自定义工作流。
端到端语音 I/O 链路：输入端基于 OpenAI Whisper（支持 Turbo 版本）实现全局热键听写与自动粘贴；输出端集成 Spotify Pedalboard 库，提供音高修正、混响、压缩等 8 种实时音频特效。
本地 LLM 驱动的人格化（Personas）：内置 Qwen3（0.6B 至 4B 参数）本地模型，用于听写文本的精炼（去除口头语）及语音风格重写，支持智能体通过 MCP 调用「人格化重写」路径。

https://github.com/jamiepine/voicebox

( @HowToAI_@X)

2、Boson AI 发布 Higgs Avatar v1：单图实时生成数字人，单卡 H100 支持 8 路并发

Boson AI 推出实时数字人基础模型 Higgs Avatar v1。该模型可通过单张静态图片，结合音频流逐帧生成具备唇形同步和面部表情的连续画面。该动作消除了传统动画预渲染管线，直接为语音智能体提供端到端的视觉交互界面。

单图驱动的逐帧实时渲染：仅需单张静态照片作为输入，即可生成与音频流同步的表情与动作，无需预渲染循环或动画管线。
16ms 极低生成延迟：模型单帧生成速度约为 16 毫秒，远优于实时交互所需的 62.5 毫秒阈值，确保视觉反馈与语音输出无缝同步。
单卡 H100 支持 8 路并发：优化后的模型支持在一块 NVIDIA H100 GPU 上同时运行 8 场独立对话，显著降低了大规模部署的推理成本。
原生语音 - 视觉耦合架构：与 Higgs Audio 模型联合训练，实现语音情感与面部细微表情的端到端匹配，而非通过外部组件拼凑，解决了对话中的轮次转换与情感失配问题。

https://www.boson.ai/blog/higgs-avatar-v1

( @boson.ai blog)

02 有亮点的产品

1、Elyra** 推出餐厅 AI 智能体系统：全量接管语音及邮件预订，支持实时桌位分配优化 **

YC 孵化的餐饮科技初创公司 Elyra 发布了一套原生 AI 预订系统，通过部署语音与邮件智能体接管餐厅的预订链路。该系统旨在通过自动化处理替代人工服务，消除行业内约 40% 的电话漏接风险，并通过实时桌位分配算法优化餐厅入座率。

多模态 AI 智能体集成：系统包含语音客服与电子邮件客服。语音智能体可实时接听电话，处理预订、修改、菜单咨询及过敏政策；邮件智能体则负责大宗团体预订的商务往来与后续跟进，实现非结构化沟通的自动化处理。
实时餐桌分配算法优化：系统不仅是数字日历，更集成了智能分配逻辑。算法可根据预订流量实时调整桌位布局方案，旨在最大化利用物理空间，提升单位面积产值。
交互数据结构化转化：每一次通话、邮件及预订意向均被转化为结构化数据点。系统利用这些数据构建客户画像，将零散的到访信息整合为可追溯的常客管理系统（CRM）。
端到端预订闭环：智能体直接挂载于预订系统底层，无需人工干预即可完成从需求识别、库存核销到预订确认的完整业务流程，显著降低高峰期的人力资源压力。

( @ycombinator\@X)

2、OpenAI 低调收购 Weights.GG，拿下 AI 语音克隆技术，6 名核心成员入职

据一位熟悉该收购的人士透露，OpenAI 在一月收购了 Weights.GG，这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。

大约六名员工加入了 OpenAI，OpenAI 收购了该创业公司的知识产权，但并不打算整合该创业公司的产品。

Weights.gg 已于今年 3 月宣布关停其服务。

Weights.gg 运营着一个面向 AI 爱好者和内容创作者的在线平台，用户可通过其免费应用程序 Replay 创建 AI 语音翻唱、进行文本转语音操作，并使用基于 RVC 技术的社区语音模型库。该平台的语音模型库中包含大量未经授权的名人声音克隆模型，包括泰勒 · 斯威夫特（Taylor Swift）、坎耶 · 维斯特（Kanye West）、Blackpink 成员，以及动画角色兔八哥（Bugs Bunny）和达菲鸭（Daffy Duck）等，甚至还包括大量美国政坛人物。

Weights.GG 曾从包括 Kleiner Perkins 在内的投资者处筹集了 400 万美元。

这些模型应有助于其最终发布一款 AI 驱动设备，《The Information》此前报道。《纽约时报》此前也报道了此次收购。

(@Z Potentials)