图片

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、NVIDIA 发布免训练空间推理智能体 SpatialClaw:以 Python 代码为动作接口,20 项基准测试平均提升 11.2 分

图片

NVIDIA Research 推出免训练空间推理智能体 SpatialClaw,该智能体直接将 Python 代码作为处理复杂视觉任务的动作接口。通过在持久化内核中动态编写代码、调用感知模块并复用感知变量,该智能体无需任何针对特定基准或模型的微调,即可在多样化的空间推理任务中显著提升性能。

https://github.com/NVlabs/SpatialClaw

论文链接:

https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf

( @NVIDIAAI\@X)

2、Soniox 发布 v5 Real-Time 实时语音模型:原生支持 60+ 语言同传、流式说话人分离与自定义端点灵敏度

图片

Soniox 推出流式语音 AI 模型 Soniox v5 Real-Time,将转录、同传及说话人分离等分步级联管线整合为单一的原生流式系统。该模型专门针对重叠发言、嘈杂背景及多语种混合等复杂现实场景设计,能显著降低语音智能体、会议同传和客户服务系统的整体响应延迟。

( @soniox_ai\@X)

02 有亮点的产品

1、Snap 发布 SPECS 一体式 AR 眼镜:定价 2195 美元,主打高精度手势与语音纯空间交互

Snap 在 AWE 2026 开发者大会上正式发布首款消费级一体式 AR 眼镜 SPECS,并宣布完成对空间增强现实公司 Illumix 的收购。该设备采用独立式无线设计,通过双芯片架构与电致变色光学透视(OST)技术实现 7ms 的运动到光子延迟。SPECS* 彻底摒弃了物理控制器,采用高精度手势追踪与语音协同的纯空间交互方案。然而,其 2195 美元的高昂售价引发了行业关于「轻量级交互硬件如何跑通商业化」的广泛争议。*

但不可忽视的是 Specs 仍存在几个难以回避的短板。续航、重量、性能这个「不可能三角」依然制约着 Specs 的体验,再加上其搭载的 Snap OS 2.0 和高通双芯片方案带来的高能耗,使其续航只有 45 分钟左右,这意味 Specs 无法成为重度的生产力工具,只能面向特定的短周期任务运行。同时,全彩光波导镜片在特定场景下会出现不可避免的颜色分离和彩虹伪影的物理缺陷,这也让 Specs 暂时难以进入高精度或极端环境场景

已在官网开放预售(需支付 200 美元可退还定金),售价为 2195 美元,预计今年秋季在美、英、法三地首批出货。

@VR 陀螺、@snap

2、Bland 获 5000 万美元融资:自研语音模型主打非线性交互,支持 45 分钟超长通话

语音智能体初创公司 Bland 宣布完成 5000 万美元 C 轮融资累计融资总额已超 1 亿美元。该轮资金将用于扩展自研语音模型并扩充工程团队。Bland 避开了套壳第三方大模型的通用路线,通过全栈自研语音模型,直接在医疗、金融等强监管行业落地高风险、高复杂度的超长语音交互服务

( @SiliconANGLE)

3、Genesis AI 发布折叠式机器人 Eno:集成 22 自由度灵巧手,最大作业高度达 2.2 米

Genesis AI 发布首款通用移动操作机器人 Eno,采用无头无腿的「轮式底盘 + 三段折叠躯干」去拟人化结构,并搭载自研高自由度灵巧手。该机器人本体与 GENE 基础模型系统深度集成,旨在平整工业、仓储及实验室场景中,直接利用人类既有工具实现全栈软硬件协同的操作闭环。

(@ 极客公园)

4、Moss 发布实时网页检索语音智能体 Founding Agent:依托 <10ms 无向量数据库检索架构

图片

实时检索基础设施服务商 Moss 宣布推出网页原生语音智能体「Founding Agent」并开启早期访问。该智能体直接运行在 Moss 自研的超低延迟检索架构上,跳过传统外部向量数据库,将端到端检索延迟压缩至 10 毫秒以内,旨在为企业网站提供即时、无延迟的语音问答、客户意向筛选与会议预约服务。

( @moss.dev)

03 有态度的观点

1、Gemini 音频总监预言:配备摄像头的 AirPods 将成为最普及的 AI 可穿戴设备

图片

根据最新行业爆料,苹果计划于明年推出配备摄像头的全新 AI 版 AirPods,届时将与 20 周年纪念版 iPhone Pro 以及第二代折叠屏 iPhone 一同发布。

对此,Google DeepMind Gemini 音频总监、语音模型 Hume AI 创始人做出预言:配备摄像头的 AirPods 将成为最普及的 AI 可穿戴设备。

他给出了以下三点理由:

( @AlanCowen\@X)

04 Real-Time Demo

开发者@Ryan__Stephen:

playing with realtime diffusion ui

正在测试实时扩散效果的用户界面

( @Ryan__Stephen\@X)

05 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、🚀** TRAE AI 创造力大赛正式开启!超百万现金等你来造 **

图片

🙋 正在做对话式 AI、Voice Agent、多模态 AI 或硬件产品的朋友看过来!

如果你最近有一个 AI 产品想法,或者正在开发自己的项目,我们推荐关注一下这次 TRAE AI 创造力大赛。

RTE 开发者社区也将组织开发者参赛、交流和作品分享。如果你想寻找队友、早起测试用户,或者和更多 Builder 一起边做边聊,欢迎加入「创造力大赛 RTE 小分队」交流群。

💬 如何加群?添加微信 Creators2022,备注:

【创造力大赛 + 一句话介绍 + 项目方向】

👇 以下为赛事详情:

TRAE 是字节跳动旗下 AI 产品,可以帮你完成产品开发与各类工作任务。

大赛提供高额奖金池、字节系超高曝光权益、官方辅导支持、行业投资机会,让你的好产品真正被看见!

💡有想法就能参赛——用 TRAE 把「想想而已」变成能体验的产品

1⃣报名:社区发一篇「创意提案」帖,3 分钟搞定,审核通过即参赛

2⃣领奖:报名成功即得中国版速通 Pro 月卡(¥99)+ 决赛门票

3⃣冲大奖:总奖池 113 万,单作品最高 35 万现金

⏰ 报名 + 初赛同步进行至 7/15,越早开造越早出作品!

点击报名:

https://www.trae.cn/ai-creativity?utm_source=RTE

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流