图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

📺** 直播预告 **

好奇 Thinking Machines 和 OpenAI 最新实时交互模型的技术细节与落地场景?

5 月 17 日(本周日)上午,我们将邀请多位深耕「边听边说边执行」底层多模态模型的模型专家,与专注「实时对话 + 推理」的 Agent 开发者,一起聊聊新一代实时交互模型的技术趋势与产品玩法。感兴趣的朋友,欢迎前往【RTE 开发者社区】公众号预约直播!

1、Thinking Machines 发布 TML-Interaction-Small:原生多模态实时交互模型,支持 200ms 微回合实时推理

Thinking Machines 发布了 TML-Interaction-Small 研究预览版。该模型弃用了传统的外部脚手架和 VAD 组件,采用原生多模态架构实现连续的音视频与文本交互。这使得 AI 能够摆脱轮询对话模式,在保持 LLM 级智能的同时实现类似人类的实时并发协作

图片

图片

图片

Demo 演示:

无缝的对话管理:模型可以隐式地追踪说话者是在思考、准备让出话语权、进行自我修正,还是在引导回应。背后无需任何独立的对话管理系统支撑。

言语和视觉打断:模型根据上下文需要随时打断插话,而不仅限于用户说完话时。

时间感知能力: 该模型能直接感知时间的流逝。

同步工具调用、搜索与生成式 UI: 在与用户交谈和倾听的同时,模型可以并发执行搜索、浏览网页或生成 UI 界面,并根据需要将结果自然融入对话之中。

原文地址:

https://thinkingmachines.ai/blog/interaction-models/

( @thinkmachines.blog)

直播预告

好奇 Thinking Machines 和 OpenAI 最新实时交互模型的技术细节与落地场景?

5 月 17 日(本周日)上午,我们将邀请多位深耕「边听边说边执行」底层多模态模型的模型专家,与专注「实时对话 + 推理」的 Agent 开发者,一起聊聊新一代实时交互模型的技术趋势与产品玩法。感兴趣的朋友,欢迎前往【RTE 开发者社区】公众号预约直播!

2、OpenBMB 发布开源多模态模型 MiniCPM-V 4.6

图片

图片

OpenBMB 正式发布并开源了 1.3B 参数量的边缘多模态大模型 MiniCPM-V 4.6,模型权重基于 Apache 2.0 协议开放。

官方表示,该模型基于 SigLIP2-400M 与 Qwen3.5-0.8B 构建,采用最新的 LLaVA-UHD v4 架构,将视觉编码计算量降低了 55.8%

根据官方提供的数据,该模型在多项基准测试中,以极低的 token 消耗超越了 Qwen3.5-0.8B

该模型专为消费级硬件和移动设备优化,原生支持在 iOSAndroid 和 HarmonyOS 平台端侧部署。

https://huggingface.co/openbmb/MiniCPM-V-4.6

https://github.com/OpenBMB/MiniCPM-V-edge-demo

(@ 橘鸦 Juya)

3、Reactor 上线实时世界模型试玩入口

近日,Reactor 正式上线旗下「实时世界模型」早期预览入口,用户打开网页即可直接体验由 AI 即时生成的可交互 3D 场景

据悉,该公司由前苹果与 Luma AI 核心成员联合创办,其技术路线的核心是将生成模型部署于自建的全球低延迟云基础设施之上,实现像素、音效与交互反馈的实时生成。

联合创始人兼 CTO Bryce Schmidtchen 在 X 平台发布的演示视频中,一辆红色跑车在异星沙漠中行驶,路面颠簸、远处行星等场景元素均由 AI 实时渲染,并即时响应用户的操控输入

预览入口:https://www.reactor.inc/

(@_bschmidtchen\@X, @APPSO)

02 有亮点的产品

1、Mark Gurman:苹果 Vision Pro 团队已被拆分重组

图片

据报道,苹果已大幅调整封闭式头显项目的战略优先级,原 Vision 产品团队被分拆重组,业务重心全面转向 AR 眼镜与其他 AI 可穿戴设备

知情人士透露,苹果在一年前已解散原 Vision 产品团队(VPG),将其软硬件人员拆分并入公司更庞大的工程架构中。

目前,原 VPG 负责人 Mike Rockwell 转为统管 Siri 与 visionOS 的联合软件部门,且其本人及核心副手的大部分精力均已倾斜至 Siri 业务的研发。

产品开发方面,苹果暂缓了重大封闭式新头显的推进,代号为 N100 的低成本头显(Vision Air)亦已于去年被取消

软件层面,Gurman 称即将发布的 visionOS 27 将缺乏重大功能级创新,更新重点仅限于底层性能优化、Bug 修复,以及实现与 iOS 27 等系统在全新 AI 编辑工具和 Siri 升级上的功能对齐。

报道指出,在暂停封闭式头显推进期间,相关硬件团队正集中资源攻坚「带摄像头的 AirPods」及「AI 吊坠」等新型 AI 可穿戴设备。

( @APPSO)

2、EgoScience 发布桌面机器人 Cubie:采用本地 + 云端双架构,集成多 LLM API 并支持离线交互

图片

EgoScience 推出 AI 原生桌面机器人 Cubie,采用模块化硬件设计与「本地 + 云端」混合架构。该设备通过集成主流 LLM API 与本地智能体系统,在解决隐私合规问题的同时,实现了复杂语义理解与离线基础交互的平衡

(@ 新智独角兽)

3、三星发布 Project Luna 概念机器人:搭载视觉追踪旋转屏,探索具身智能交互

图片

图片

三星在米兰设计周推出名为 Project Luna 的概念 AI 机器人。该设备通过集成视觉传感器与多轴机械结构,实现了能够主动追踪并面向用户的「具身化」交互,旨在将 AI 从被动的语音黑盒子转化为具有物理「在场感」的桌面实体。

@AloT 未来智讯)

03 有态度的观点

1、黄仁勋致 2026 届毕业生:AI 不会取代你,但更会用 AI 的人可能会

图片

英伟达 CEO 黄仁勋出席 Carnegie Mellon University(CMU)2026 年毕业典礼,并接受科学与技术荣誉博士学位。

黄仁勋对当前弥漫的就业焦虑给出了直接回应。他表示,AI 正在终结延续 60 年的传统计算范式 —— 从人类编写代码转向机器学习,从 CPU 转向 GPU,从执行指令转向理解、推理与规划。

他认为,这一转变让旧有经验的优势被削平,所有人重新站上同一条起跑线。他特别指出,「AI 不太可能取代你,但更会使用 AI 的人可能会取代你」。

对于刚拿到文凭、毫无包袱的年轻人来说,这其实是一件好事。因为大家不用再去死磕那些已经被前人占满的旧赛道,而是和所有人一起,又一次站在了同一条起跑线上。他同时呼吁科学家、工程师与政策制定者共同承担责任,在推进 AI 能力的同时建立安全护栏,并确保 AI 的红利能够惠及更广泛的人群。

他还提到,支撑 AI 基础设施所需的大规模建设将为电工、建筑工人、钢铁工人等传统行业从业者带来新的机遇

值得注意的是,典礼上,Intel CEO 陈立武亲手为黄仁勋披上荣誉博士披肩,并在典礼结束后公开透露,两家公司正在合作开发「令人期待的新产品」,但未披露更多细节。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、EAZO Global Hackathon 2026 正式开启!30 万美⾦奖⾦池等你来挑战

图片

扫码加入,和我们一起和更多创作者等上线吧👇

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流