开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Soul App 发布开源模型 **SoulX-LiveAct***:高鲁棒实时交互数字人,双卡低成本流式生成*

该示例中,视频由 SoulX-LiveAct 生成,人声由 SoulX-Podcast 生成

近日,Soul App AI 团队(Soul AI Lab)发布开源模型 SoulX-LiveAct。作为新的实时数字人生成方案,SoulX-LiveAct 通过 Neighbor Forcing(同扩散步对齐的自回归条件传播)与 ConvKV Memory(KV 记忆压缩),让 AR diffusion 从「能流式」走向「可真正长时稳定地实时流式」

SoulX-LiveAct 三大亮点

过去的 AR diffusion 往往依赖 KV cache 记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct 从「条件传播方式」和「历史记忆管理」两个层面解决了这一瓶颈,创新机制使系统既能「带得动」长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力

在 512×512 分辨率下,SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力,端到端延迟约 0.94s。同时,单帧计算成本降低到 27.2 TFLOPs / frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。

长视频最容易「翻车」的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定(如配饰与衣物纹理不「掉件」)

现阶段,伴随着 AI 技术在数字人直播、视频播客、实时互动等场景快速普及,行业应用层对模型的实际需求正在从「能生成」走向「能长期稳定生成」。而 Soul 此次开源的技术,让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准,无疑是行业的重大突破

@Soul 社交)

2、Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座

MiMo-V2-Omni 专为现实世界中复杂的多模态交互与执行场景而生。从底层构建了融合文本、视觉、语音的全模态基座,并以统一架构将「感知」与「行动」深度绑定。这不仅打破了传统模型「重理解、轻执行」的局限,更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。MiMo-V2-Omni 可无缝接入各种 Agent 框架,实现了从理解到操控的跨越,大幅降低了全模态 Agent 的落地门槛。

从对比图中不难看出

在与真实数字环境交互的评测基准上,MiMo-V2-Omni 表现优异,比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势:感知越准确,行动越有效

接下来,小米还将持续推进长周期智能体规划、实时流式感知、多智能体协同,以及与物理世界更深层的整合。

( @Xiaomi MiMo)

3、Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声

Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音 - 文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制

MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变;真实还原人类说话的自然韵律。

打哈欠

这会……(打了个哈欠)呵啊——,这会到底还得开多久啊?啧,(压低声音)我都快听睡着了。那个,那个……咱们等会儿中午吃啥?

面试

紧张,深呼吸)呼……冷静,冷静。不就是一个面试吗……(语速加快,碎碎念)自我介绍已经背了五十遍了,应该没问题的。加油,你可以的……(小声)哎呀,领带歪没歪?

MiMo-V2-TTS 不止于标准语音生成,还具备丰富的多元表达能力:支持多种方言的自然发音,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

孙悟空

师父莫怕!俺老孙刚才翻到那山头看过了,前面树林子里透着股妖气。你们先在这石头上歇着,且容俺去打个头阵,探探什么来路!

在小米的规划中:中英文之外更多语种的覆盖;以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent 不仅能看懂世界、理解世界,更能以富有表现力的人类声音去讲述这个世界。

正因语音 Agent 时代需要的,不只是听得清的声音,而是有生命力的声音

( @Xiaomi MiMo)

02 有亮点的产品

1、HooRii 开启 ClawStage 众筹:基于树莓派 5,让 OpenClaw 拥有「物理肉身」与空间感知力

HooRii 正式推出 ClawStage,这是全球首款基于 OpenClaw 架构的具身 AI 终端。它不仅是一个桌面上运行 LLM 的「盒子」,更是一个具备物理坐标系、支持 Thread/Matter 协议的 IoT 枢纽。它解决了 Agent 长期「悬浮」在云端对话框、无法感知并干预真实物理世界的痛点。

当前已在 Kickstarter 开启众筹。预计 2026 年 9 月开始全球交付。

Kickstarter 链接:

https://www.kickstarter.com/projects/hoorii/hoorii-stage-your-proactive-smart-personalized-companion-hub

@Kickstarter

2、Meta 旗下核心元宇宙产品将不再支持 Quest VR 头显用户访问

Meta Platforms 表示,其 Meta Quest 头显用户将无法再访问 Horizon Worlds——这是一个虚拟空间,用户可以在其中以卡通形象见面并进行游戏。这标志着该公司进一步缩减曾在 Mark Zuckerberg 战略中占据核心地位的「元宇宙」布局

Meta 周二表示,自 6 月 15 日起,消费者将不再能够在 Quest 头显上创建、发布或更新虚拟现实世界,也无法通过 Meta Horizon Worlds 进行访问。不过,用户仍可通过 Meta Horizon 应用继续访问这些虚拟世界。

(@ 元宇宙 News)

3、苹果智能家居硬件负责人离职,加盟智能戒指厂商 Oura

苹果公司负责家庭硬件工程的高级总监布莱恩·林奇(Brian Lynch)即将离开苹果,加入智能戒指公司 Oura,出任硬件工程高级副总裁一职。过去几年里,Oura 已多次从苹果挖走人才,而林奇的离任被形容为在苹果正筹备推出多款新家居设备之际,为其智能家居产品团队带来了新的动荡。

苹果正在开发一款智能家居中枢设备,不过由于 Siri 相关技术开发进展不及预期,该产品的发布日期一再推迟,目前计划推迟至 2026 年 9 月发布。此外,苹果还在研发家用安防及自动化传感器,以及计划于 2027 年推出功能更为先进的桌面家用机器人。在可穿戴和新形态设备方面,苹果也有包括智能眼镜、可穿戴式 AI 吊坠或胸针,以及配备摄像头的 AirPods 等产品规划

林奇在苹果供职逾 20 年,在接手智能家居硬件之前,曾参与苹果现已叫停的造车项目。在组织架构上,他向同时负责音频工程与 Beats 设备的马特·科斯特洛(Matt Costello)汇报工作,而科斯特洛则直接向苹果硬件工程负责人约翰·特努斯(John Ternus)汇报。

(@ 极客公园)

03 有态度的观点

1、黄仁勋:Token 将成为企业预算标配,智能体时代算力消耗将爆发式增长

英伟达 CEO 黄仁勋在日前的 GTC 大会上反复提及一个概念:Token

黄仁勋将未来的计算机定义为「生产 Token 的制造设备」,并预言 Token 将像笔记本电脑或软件订阅一样,成为企业预算中的固定支出项。

他表示,工程师未来可能会获得「Token 预算」以提升生产力,并在主题演讲中抛出了一个颇具话题性的设想——为英伟达工程师提供价值相当于其年薪一半的 Token 作为额外激励,以此吸引人才

在谈及投入产出时,黄仁勋表示这笔费用完全值得,尤其是对于薪酬较高、借助 AI 智能体能够带来显著生产力提升的工程师而言。

如果每天额外投入 100 美元的推理成本——也就是 Token 成本,我会非常乐意......就算在冲刺阶段每天投入 1000 美元,也完全没问题他同时补充,更强大、更节能的英伟达硬件将持续降低 Token 的生成成本。

黄仁勋还指出,AI 智能体的兴起将大幅推高 Token 消耗量。由于智能体可以在无人监督的情况下自主运行,未来计算机将全天候不间断地运转。

现在我们的笔记本电脑大多处于闲置状态,但未来计算机将 7×24 小时运行、持续生成 Token,因为你的智能体一直在处理任务。

(@APPSO)

04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、声网招聘开发者体验专家

岗位职责:

岗位要求:

加分项:

投递方式:

有意者请将简历投递至:

zhangqianze@shengwang.cn

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流