开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Boson AI 发布 Higgs Audio v3 TTS 语音合成模型:支持行内标签控制,适配 SGLang-Omni 高性能推理与流式输出

Boson AI 推出了针对语音通话场景优化的 Higgs Audio v3 TTS 语音合成模型(参数量约 4B)。该模型基于 Transformer 自回归解码器,支持 102 种语言的零样本(Zero-shot)声音克隆。其核心突破在于支持高密度的行内控制标记(Inline Control Tokens),允许在文本生成过程中直接插入情绪、副语言音效及语调控制。

图片

模型权重已在 Hugging Face 开放下载,采用 Boson Higgs Audio v3 研究及非商业许可协议。托管 API 或任何产生收入的商业用途需另行获取商业许可。

https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

(@Boson.ai)

2、BreezeBlue Studio 发布语音生成模型 Bluebell:基于交错文本 - 音频流架构,支持可调控强度的零样本语音设计与引导

音频初创公司 BreezeBlue Studio 推出首款专注于指令遵循(Instruction Following)的音频大语言模型 Bluebell。该模型基于交错的文本与音频序列进行端到端训练,将语音生成任务从单纯的「高保真克隆」转向「意图可控生成」。用户可以通过纯文本提示词直接定制特定角色的音色,或通过自然语言指令动态引导(Direct)现有参考声音的演播风格。

https://breeze.blue/

(@BreezeBlueX\@X)

3、MisoTTS 开源 8B 参数语音生成模型:110ms 极低延迟响应

Miso 正式发布并开源了 8b 参数的语音生成模型 Miso One(亦称 Miso TTS 8B)。该模型受 Sesame CSM 架构启发,采用 Llama 3.2 风格的骨干网络并生成 Mimi 音频编码,将端到端生成延迟降低至 110ms,专为高表现力英文对话场景设计

试用链接:

https://www.misolabs.ai/

GitHub:

https://github.com/MisoLabsAI/MisoTTS

(@AodenTeoMT\@X)

4、Amphion 与荣耀发布 WhispEar:基于双向 Flow-Matching 架构,实现 3000 小时级耳语语音转换 Scaling

Amphion 团队联合荣耀提出 WhispEar 框架,旨在解决耳语转正常语音(W2N)任务中真实平行数据极度匮乏的瓶颈。该研究通过构建统一语义表示空间与双向 Flow-Matching 架构,利用「正常转耳语」(N2W)生成的 3000 小时级伪平行数据进行 Scaling 预训练,显著提升了跨语言语音转换的可懂度与音色保持度

论文:

https://arxiv.org/pdf/2603.08046

Demo:

https://whispear-demo.github.io/

(@Amphion)

5、Google 发布 Magenta RealTime 2:2.4B 开源本地实时音乐生成模型,控制延迟降至 200ms

Magenta 团队发布开源本地实时音乐生成模型 Magenta RealTime 2(MRT2)及配套 C++ 推理引擎。该模型支持在 Apple Silicon 设备上进行超低延迟的本地部署,允许用户通过 MIDI、音频和文本实时交互控制音乐合成。通过优化架构与推理链路,MRT2 将控制延迟由初代模型的 ~3s 缩短至 ~200ms,实现了单帧级别的实时音频生成。

Hugging Face:

https://huggingface.co/google/magenta-realtime-2

GitHub:

https://github.com/magenta/magenta-realtime

Blog 链接:

https://magenta.withgoogle.com/magenta-realtime-2

( @osanseviero\@X)

02 有亮点的产品

1、intentware AI 开启内测:基于个人语料训练的 Always On 语音智能体

图片

开发者郭宇发布其第 16 款产品 intentware AI,通过 X 订阅系统进行灰度内测。该产品定位为全天候语音智能体(Always On Voice Agent),旨在利用特定个人历史数据实现高拟人化的模拟人生交互体验

订阅链接:

https://x.com/turingou/creator-subscriptions/subscribe

( @turingou\@X)

03 有态度的观点

1、联合国大学报告:AI 扩张正在推高能源、水资源压力

图片

联合国大学昨日发布水、环境与健康研究所报告,称人工智能基础设施快速扩张正在显著增加能源、水资源和土地需求

报告估计,2025 年全球数据中心耗电量达到 448 太瓦时;到 2030 年,数据中心电力需求可能增至 945 太瓦时(1 太瓦时 = 10 亿度电),约占全球电力消费总量的 3%。

报告把「推理」列为主要能耗来源。研究显示,推理环节占人工智能总能耗的 80% 至 90%;ChatGPT 每天处理的提示请求估计约 25 亿次,对应年耗电量约 383 吉瓦时。

不同 AI 任务能耗差异也很大:生成一张 AI 图像的能耗约为基础文本分类任务的 1450 倍,生成一段短视频则相当于 20 万次垃圾邮件分类任务。

报告预测,到 2030 年全球数据中心的相关用水量(含直接冷却与间接发电/制造用水)将达到 9.3 万亿升,相当于撒哈拉以南非洲 13 亿人一年的基本生活用水需求。

报告还提到,目前全球仅 32 个国家拥有专门的 AI 数据中心,超过 90% 的 AI 专用云计算资源集中在美国和中国两国。

(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、6 月 11 日【新加坡活动预告】去 SuperAI 的朋友,晚上一起聊聊增长和商业化 | Praxis Founder Night

🍸【From Users to Revenue,What Actually Works in AI Go-to-Market?】

🪄本次活动精心邀请了在一线操盘的实战专家们:

🔹Clark Gao - CREAO AI 联合创始人

🔹Jingwen Sun - Impa Ventures 创始合伙人

🔹Gino Pua - Tridorian Account Director

🔹Gabriel Tham - Field Sales Representative, Startups

他们会认真聊聊:

✅ 早期 AI 产品怎么验证 PMF

✅ 增长渠道怎么选、商业化路径怎么搭

✅ 创业过程中 “有用户却没收入” 的真实踩坑

💡还有 5 个高潜 AI 项目的 Founder Story,听听创业者们怎么在资源有限时做关键决策!

⏰ 6 月 11 日(周四)18:00-21:30

📍 新加坡(SuperAI 主会场旁,报名后通知)

🎫 免费,审核制,luma 报名

👇 嘉宾的具体信息、活动议程请详见推文,Luma 链接可直接报名~

【新加坡活动预告】去 SuperAI 的朋友,晚上一起聊聊增长和商业化 | Praxis Founder Night

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流