图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、RunAnywhere 推出 RCLI,实现 131ms 端到端本地语音控制架构

RunAnywhere 发布的开源项目 RCLI 实现了 macOS 环境下全本地化的 Voice + RAG 闭环流水线。该系统通过优化端到端推理路径,将「语音输入至指令执行」的延迟压缩至 ~131ms,目前支持 43 项原生 macOS 自动化操作(覆盖 Spotify、窗口管理、FaceTime 等)。项目采用全开源模式,核心逻辑完全脱离云端,确保数据本地化存储与处理。

RCLI 的技术核心在于针对 Apple Silicon 深度优化的推理链路。下一版本计划引入 MetalRT 支持,届时预计 decode 速度可达 658 tok/s,并显著提升自动语音识别(ASR)与语音合成(TTS)的并发性能。该架构利用本地 RAG 插件实现文档问答与实时系统控制的协同,通过高性能本地推断规避了传统云端助理的延迟瓶颈。

GitHub 链接:

https://github.com/RunanywhereAI/RCLI

( @sanchitmonga22\@x)

2、北京大学开源 Helios 14B,实现单卡 H100 视频实时生成

北京大学(PKU-YuanGroup)正式开源 Helios,这是一个参数量达 14B 的高性能视频生成模型。该模型通过架构优化,在单张 NVIDIA H100 上实现了实时生成(Real-time Generation),其推理速度超越了常规 1.3B 规模的模型,显著降低了高参数量模型在视频流合成中的延迟瓶颈。

Helios 架构原生支持多种生成范式与交互模式,具备类「世界模型(World Models)」的物理模拟潜力:

目前该项目已在 GitHub 开源,提供模型权重与推理脚本。

GitHub 链接:

https://github.com/PKU-YuanGroup/Helios

( @Gorden_Sun\@X)

3、OpenAI 研发 BiDi 双向音频模型,旨在攻克实时中断与工具调用

OpenAI 正在研发代号为 BiDi(Bidirectional) 的新型实时音频模型,旨在打破当前 Advanced Voice Mode 的轮询式(Turn-based)交互局限。该模型的核心突破在于持续处理能力,允许 AI 在输出过程中实时感知输入信号并调整响应逻辑,而非在遭遇中断(如「OK」或「嗯」)时简单停顿或失效。

@TheInformation;@investing.com)

02 有亮点的产品

1、苹果「HomePad」智能家居中枢推迟至 2026 年秋季发布

图片

据原型机收集者「Kosutami」最新消息,苹果长期传闻中的智能家居中枢设备「HomePad」将推迟至 2026 年秋季推出,比预期时间更晚。

Kosutami 在 X 平台上发帖表示,该设备将于 9 月至 12 月的秋季期间问世,这通常是苹果一年中最繁忙的产品发布窗口。苹果已为此设备研发数年,旨在打造智能家居控制中心,用户可通过它统一管理家居产品、播放音乐和播客、进行视频通话,并查看天气、日历等即时信息。

设备预计配备 7 英寸方形显示屏和前置摄像头,可能推出两种版本:一款壁挂式,另一款带有类似 HomePod mini 扬声器底座的桌面款。内置传感器能检测附近人员,并根据身份调整显示内容。它将高度依赖 Siri 语音指令,Siri 在设备上可能呈现拟人化界面,如 Mac Finder 图标的变体设计。

苹果预计定价约 350 美元。该设备原计划 2025 年初发布,后因 Apple Intelligence 开发延误移至 2026 年初,如今进一步推至秋季,或与 iPhone 18 Pro 或全新 MacBook Pro 一同亮相。

(@ 极客公园)

2、VoiceLine 获 1000 万欧元 A 轮,用于扩展语音 AI 在欧洲企业一线应用

图片

慕尼黑初创公司 VoiceLine 近日宣布完成 1000 万欧元 A 轮融资。本轮由 Alstin Capital 与 Peak 领投,Scalehouse Capital、Venture Stars 及 NAP 跟投。资金将主要用于扩展全球市场及深化针对移动端一线员工(Frontline Workers)的语音 AI 技术研发。

VoiceLine 旨在通过语音交互解决现场销售、服务及运营人员在移动场景下的数据录入延迟问题。

其主要技术有

该方案旨在重塑一线业务的标准化文档沉淀,通过「语音即接口」的设计理念减少员工对移动端 UI 的高频依赖,从根源上消除因「事后补录」导致的数据滞后与信息黑盒问题。

目前,VoiceLine 已在制造、物流及服务业完成闭环落地,为分布式移动团队提供实时、高保真的数据反馈链路,将非结构化现场交互转化为具备可追溯性的企业数字资产,显著提升了管理端的全局可见性。

未来,voiceline 将以德国为中心向全欧洲及全球市场渗透,强化多语言环境下的企业级语音 AI 部署能力。同时开发更多适配现场业务的垂直用例(Use Cases),提升对复杂业务逻辑的识别精度。

( @thenextweb)

3、语音社交 App 森森(Gensen)MAU 突破 260 万:基于副语言信号与游戏行为实现 AI 人格建模

图片

由暴雪与皮克斯资深开发人员创立的社交产品森森(Gensen),通过 3D 语音游戏场景捕捉用户的实时声音特征与交互行为,利用 AI 建模替代传统社交产品的静态图文匹配。目前该产品 MAU 已达 260 万,估值 1.5 亿美元,旨在解决 AI 时代生成内容带来的社交信息信任危机。

图片

国内版已上线运营;美国版 Gensen 正在进行上线准备;已完成 A 轮融资,累计融资约 3.1 亿元人民币。

(@ 量子位)

03 有态度的观点 

1、雷军:AI 不会消灭工作,未来每天上班两小时就够了

图片

近日,全国人大代表,小米集团创始人、董事长兼 CEO 雷军在接受采访时表示,在人工智能时代,或许很多规则将被重写,但同时又会产生很多新的岗位。

雷军建议,大家要用开放的心态,迎接更先进的时代。未来,也许不再需要每天工作 8 小时、每周工作 5 天了,或许一周仅需工作 3 天,每天工作 2 个小时。我们的生活质量、工作质量都会大幅度提升。

前不久, 小米机器人走进小米工厂开始拧螺丝了,雷军表示未来 5 年会有更多的人形机器人走进小米的工厂。

对此,雷军进一步阐述称:「我们已经进入人工智能的时代,这是毫无疑问的共识。」

(@ 极客公园)

04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、AveraLabs — 语音 AI 研究工程师 / Research Engineer, Voice AI

我们是一家来自美国旧金山的语音 AI 初创团队,正在打造下一代「全双工语音交互」系统,目标是让它通过图灵测试,创造像真人一样的自然对话。

创始团队

你会做什么

我们在找什么人

加分项

我们给什么

有兴趣 or 知道合适的人,微信/邮件联系:richardh\@averalabs.com

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流