AI测试 OpenAI 低调收购语音克隆团队;李沐团队 Boson AI 发布单图实时生成数字人,单卡 H100 支持 8 路并发丨日报

RTE开发者社区 · May 19, 2026 · 18 hits

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Voicebox:基于 Tauri 的全栈本地 AI 语音工作站,集成 7 种 TTS 引擎与 MCP 协议

图片

图片

图片

Voicebox 是一款开源、本地优先的 AI 语音 I/O 集成套件,旨在提供 ElevenLabs(输出)与 WisprFlow(输入)的本地化替代方案。该工具通过 Tauri(Rust)构建,支持多达 7 种 TTS 引擎和 Whisper STT,并在本地集成 LLM 以实现语音克隆、智能体(agent)交互及音频后处理

  • 多引擎 TTS 矩阵集成 Kokoro(82M 极小模型,支持高速 CPU 推理)、Qwen3-TTS(支持自然语言描述控制语速/语气)以及 LuxTTS(1GB VRAM 占用,150x 实时采样率)等 7 种引擎,支持 23 种语言及零样本(Zero-shot)克隆

  • 硬件原生加速方案:底层支持 macOS(MLX/Metal)、Windows(CUDA/DirectML)及 Linux(ROCm/Intel Arc);在 Apple Silicon 上通过 Neural Engine 可实现 4-5 倍推理加速。

  • MCP 协议与智能体集成:内置 MCP Server,允许 Claude Code、Cursor 及 Cline 等智能体通过 voicebox.speak 工具调用克隆语音;支持 API 访问(REST API)以便集成至开发者自定义工作流。

  • 端到端语音 I/O 链路:输入端基于 OpenAI Whisper(支持 Turbo 版本)实现全局热键听写与自动粘贴;输出端集成 Spotify Pedalboard 库,提供音高修正、混响、压缩等 8 种实时音频特效。

  • 本地 LLM 驱动的人格化(Personas):内置 Qwen3(0.6B 至 4B 参数)本地模型,用于听写文本的精炼(去除口头语)及语音风格重写,支持智能体通过 MCP 调用「人格化重写」路径。

https://github.com/jamiepine/voicebox

( @HowToAI_@X)

2、Boson AI 发布 Higgs Avatar v1:单图实时生成数字人,单卡 H100 支持 8 路并发

Boson AI 推出实时数字人基础模型 Higgs Avatar v1。该模型可通过单张静态图片,结合音频流逐帧生成具备唇形同步和面部表情的连续画面。该动作消除了传统动画预渲染管线,直接为语音智能体提供端到端的视觉交互界面。

  • 单图驱动的逐帧实时渲染:仅需单张静态照片作为输入,即可生成与音频流同步的表情与动作,无需预渲染循环或动画管线。

  • 16ms 极低生成延迟:模型单帧生成速度约为 16 毫秒,远优于实时交互所需的 62.5 毫秒阈值,确保视觉反馈与语音输出无缝同步

  • 单卡 H100 支持 8 路并发:优化后的模型支持在一块 NVIDIA H100 GPU 上同时运行 8 场独立对话,显著降低了大规模部署的推理成本。

  • 原生语音 - 视觉耦合架构:与 Higgs Audio 模型联合训练,实现语音情感与面部细微表情的端到端匹配,而非通过外部组件拼凑,解决了对话中的轮次转换与情感失配问题。

https://www.boson.ai/blog/higgs-avatar-v1

( @boson.ai blog)

02 有亮点的产品

1、Elyra** 推出餐厅 AI 智能体系统:全量接管语音及邮件预订,支持实时桌位分配优化 **

YC 孵化的餐饮科技初创公司 Elyra 发布了一套原生 AI 预订系统,通过部署语音与邮件智能体接管餐厅的预订链路。该系统旨在通过自动化处理替代人工服务,消除行业内约 40% 的电话漏接风险,并通过实时桌位分配算法优化餐厅入座率。

  • 多模态 AI 智能体集成:系统包含语音客服与电子邮件客服。语音智能体可实时接听电话,处理预订、修改、菜单咨询及过敏政策;邮件智能体则负责大宗团体预订的商务往来与后续跟进,实现非结构化沟通的自动化处理。

  • 实时餐桌分配算法优化:系统不仅是数字日历,更集成了智能分配逻辑。算法可根据预订流量实时调整桌位布局方案,旨在最大化利用物理空间,提升单位面积产值。

  • 交互数据结构化转化:每一次通话、邮件及预订意向被转化为结构化数据点。系统利用这些数据构建客户画像,将零散的到访信息整合为可追溯的常客管理系统(CRM)。

  • 端到端预订闭环:智能体直接挂载于预订系统底层,无需人工干预即可完成从需求识别、库存核销到预订确认的完整业务流程,显著降低高峰期的人力资源压力。

( @ycombinator\@X)

2、OpenAI 低调收购 Weights.GG,拿下 AI 语音克隆技术,6 名核心成员入职

图片

据一位熟悉该收购的人士透露,OpenAI 在一月收购了 Weights.GG, 这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司

大约六名员工加入了 OpenAI,OpenAI 收购了该创业公司的知识产权,但并不打算整合该创业公司的产品。

Weights.gg 已于今年 3 月宣布关停其服务。

Weights.gg 运营着一个面向 AI 爱好者和内容创作者的在线平台,用户可通过其免费应用程序 Replay 创建 AI 语音翻唱、进行文本转语音操作,并使用基于 RVC 技术的社区语音模型库。该平台的语音模型库中包含大量未经授权的名人声音克隆模型,包括泰勒 · 斯威夫特(Taylor Swift)、坎耶 · 维斯特(Kanye West)、Blackpink 成员,以及动画角色兔八哥(Bugs Bunny)和达菲鸭(Daffy Duck)等,甚至还包括大量美国政坛人物。

Weights.GG 曾从包括 Kleiner Perkins 在内的投资者处筹集了 400 万美元。

这些模型应有助于其最终发布一款 AI 驱动设备,《The Information》此前报道 。《纽约时报》此前也报道了此次收购。

(@Z Potentials)

03 有态度的观点

1、「你不是一个人」:Anthropic Labs 负责人、Instagram 联合创始人 Mike Krieger 回应毕业季焦虑

图片

他的核心回应很克制,也很现实:你不是一个人在慌,这种不确定是「集体性的复杂处境」。

Krieger 认为,短期内 AI 很难替代的,不是某个具体专业,而是一些更底层的人类能力:关系建立、好奇心、创造力、组织他人达成目标。

他还强调,眼下没拿到理想工作,不代表轨迹就此定型。

「Nothing is set in stone」—— 没有什么是被钉死的。在这个背景下,Anthropic 又恰恰是对「AI 将冲击白领入门岗位」说得最重的公司之一。CEO Dario Amodei 此前多次警告,未来 1 到 5 年,最多一半初级白领岗位可能被 AI 消灭。

一边是行业高管亲口承认冲击会来,一边又告诉年轻人,别把第一份工作当成人生终局。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up