开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、Soul App 发布开源模型 **SoulX-LiveAct***：高鲁棒实时交互数字人，双卡低成本流式生成*

该示例中，视频由 SoulX-LiveAct 生成，人声由 SoulX-Podcast 生成

近日，Soul App AI 团队（Soul AI Lab）发布开源模型 SoulX-LiveAct。作为新的实时数字人生成方案，SoulX-LiveAct 通过 Neighbor Forcing（同扩散步对齐的自回归条件传播）与 ConvKV Memory（KV 记忆压缩），让 AR diffusion 从「能流式」走向「可真正长时稳定地实时流式」。

SoulX-LiveAct 三大亮点

恒定显存：真正支持无限时长生成

过去的 AR diffusion 往往依赖 KV cache 记忆历史信息，但缓存会随视频长度线性增长——视频一长，不是爆显存，就是不得不丢历史，稳定性随之崩掉。SoulX-LiveAct 从「条件传播方式」和「历史记忆管理」两个层面解决了这一瓶颈，创新机制使系统既能「带得动」长时历史，又不会因缓存膨胀而拖慢推理，从而在机制上具备小时级甚至更长时长的持续生成能力。

实时吞吐：2 张 H100/H200 即可 20 FPS 流式推理

在 512×512 分辨率下，SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力，端到端延迟约 0.94s。同时，单帧计算成本降低到 27.2 TFLOPs / frame，在追求实时的条件下显著减轻算力压力，为线上部署提供更现实的成本方案。

长时一致：身份稳定 + 细节不「掉件」

长视频最容易「翻车」的不是第一分钟，而是第十分钟、第三十分钟：常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现，甚至口型逐步失配。在报告的长时对比中，基线方法普遍出现不同程度的身份漂移与细节不稳定；而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定（如配饰与衣物纹理不「掉件」）。

现阶段，伴随着 AI 技术在数字人直播、视频播客、实时互动等场景快速普及，行业应用层对模型的实际需求正在从「能生成」走向「能长期稳定生成」。而 Soul 此次开源的技术，让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准，无疑是行业的重大突破。

（@Soul 社交）

2、Xiaomi MiMo-V2-Omni 发布：看得清，听得懂，能动手的全模态 Agent 基座

MiMo-V2-Omni 专为现实世界中复杂的多模态交互与执行场景而生。从底层构建了融合文本、视觉、语音的全模态基座，并以统一架构将「感知」与「行动」深度绑定。这不仅打破了传统模型「重理解、轻执行」的局限，更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。MiMo-V2-Omni 可无缝接入各种 Agent 框架，实现了从理解到操控的跨越，大幅降低了全模态 Agent 的落地门槛。

从对比图中不难看出

音频理解方面，支持从环境声分类、多说话人分离、音频 - 视觉联合推理，到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一。
图像理解方面，MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力，超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型水平。
视频理解方面，支持原生音视频联合输入，实现真正的多模态视频理解。通过创新的视频预训练，模型具备强大的情境感知与未来推理能力。

在与真实数字环境交互的评测基准上，MiMo-V2-Omni 表现优异，比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势：感知越准确，行动越有效。

接下来，小米还将持续推进长周期智能体规划、实时流式感知、多智能体协同，以及与物理世界更深层的整合。

( @Xiaomi MiMo)

3、Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音 - 文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制。

MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变；真实还原人类说话的自然韵律。

打哈欠

这会……（打了个哈欠）呵啊——，这会到底还得开多久啊？啧，（压低声音）我都快听睡着了。那个，那个……咱们等会儿中午吃啥？

面试

紧张，深呼吸）呼……冷静，冷静。不就是一个面试吗……（语速加快，碎碎念）自我介绍已经背了五十遍了，应该没问题的。加油，你可以的……（小声）哎呀，领带歪没歪？

MiMo-V2-TTS 不止于标准语音生成，还具备丰富的多元表达能力：支持多种方言的自然发音，可进行角色扮演式的风格化演绎，更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

孙悟空

师父莫怕！俺老孙刚才翻到那山头看过了，前面树林子里透着股妖气。你们先在这石头上歇着，且容俺去打个头阵，探探什么来路！

在小米的规划中：中英文之外更多语种的覆盖；以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent 不仅能看懂世界、理解世界，更能以富有表现力的人类声音去讲述这个世界。

正因语音 Agent 时代需要的，不只是听得清的声音，而是有生命力的声音。

( @Xiaomi MiMo)

02 有亮点的产品

1、HooRii 开启 ClawStage 众筹：基于树莓派 5，让 OpenClaw 拥有「物理肉身」与空间感知力

HooRii 正式推出 ClawStage，这是全球首款基于 OpenClaw 架构的具身 AI 终端。它不仅是一个桌面上运行 LLM 的「盒子」，更是一个具备物理坐标系、支持 Thread/Matter 协议的 IoT 枢纽。它解决了 Agent 长期「悬浮」在云端对话框、无法感知并干预真实物理世界的痛点。

从「对话框」到「物理肉身」的具身化：ClawStage 为 AI Agent 提供了坐标系统。通过旋转机构、摄像头与传感器，Agent 能感知用户律动（如进入工位、长时间静止）并产生物理反馈（如主动侧身招呼、变换姿态），实现从「被动指令执行」到「环境主动感知」的交互跨越。
跨终端的 AI Persona 状态流转：依托 HooRii Workshop，用户定义的 AI 角色具备跨端连续性。Agent 状态可在手机、桌面端与 ClawStage 硬件间无缝切换——用户在下班路上通过 App 沟通的任务，回到工位后由 ClawStage 硬件「唤醒」并继续执行物理侧操作。
自然语言驱动的「空间编排器」：内置 ShadowLink 技术，将 LLM 意图直接映射为 Thread/Matter 协议指令。用户无需记忆特定代码，只需口述「我要开始专注」，ClawStage 即可协同调控桌面灯光、调节室温并切换至沉浸模式，实现原子级硬件的自动化编排。
开放且模块化的「Agent PC」架构：针对开发者设计，核心采用 Raspberry Pi 5 模块化方案，支持硬件级的 DIY 升级。兼容 OpenClaw 开源框架，提供标准的传感器/执行器映射层，允许开发者像写 Web 插件一样，为 Agent 编写新的物理交互行为。

当前已在 Kickstarter 开启众筹。预计 2026 年 9 月开始全球交付。

Kickstarter 链接：

https://www.kickstarter.com/projects/hoorii/hoorii-stage-your-proactive-smart-personalized-companion-hub

（@Kickstarter）

2、Meta 旗下核心元宇宙产品将不再支持 Quest VR 头显用户访问

Meta Platforms 表示，其 Meta Quest 头显用户将无法再访问 Horizon Worlds——这是一个虚拟空间，用户可以在其中以卡通形象见面并进行游戏。这标志着该公司进一步缩减曾在 Mark Zuckerberg 战略中占据核心地位的「元宇宙」布局。

Meta 周二表示，自 6 月 15 日起，消费者将不再能够在 Quest 头显上创建、发布或更新虚拟现实世界，也无法通过 Meta Horizon Worlds 进行访问。不过，用户仍可通过 Meta Horizon 应用继续访问这些虚拟世界。

（@ 元宇宙 News）

3、苹果智能家居硬件负责人离职，加盟智能戒指厂商 Oura

苹果公司负责家庭硬件工程的高级总监布莱恩·林奇（Brian Lynch）即将离开苹果，加入智能戒指公司 Oura，出任硬件工程高级副总裁一职。过去几年里，Oura 已多次从苹果挖走人才，而林奇的离任被形容为在苹果正筹备推出多款新家居设备之际，为其智能家居产品团队带来了新的动荡。

苹果正在开发一款智能家居中枢设备，不过由于 Siri 相关技术开发进展不及预期，该产品的发布日期一再推迟，目前计划推迟至 2026 年 9 月发布。此外，苹果还在研发家用安防及自动化传感器，以及计划于 2027 年推出功能更为先进的桌面家用机器人。在可穿戴和新形态设备方面，苹果也有包括智能眼镜、可穿戴式 AI 吊坠或胸针，以及配备摄像头的 AirPods 等产品规划。

林奇在苹果供职逾 20 年，在接手智能家居硬件之前，曾参与苹果现已叫停的造车项目。在组织架构上，他向同时负责音频工程与 Beats 设备的马特·科斯特洛（Matt Costello）汇报工作，而科斯特洛则直接向苹果硬件工程负责人约翰·特努斯（John Ternus）汇报。

（@ 极客公园）