图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Hand2World:基于 3D 手部结构与射线嵌入,实现首个闭环交互式第一人称世界模型

南洋理工大学(NTU)MMLab 团队发布 Hand2World,这是首个支持自由手势驱动的第一人称交互世界模型。该模型允许用户通过空中手势实时操控虚拟场景并生成连续视频,解决了传统世界模型在主动物理交互及相机运动解耦方面的技术瓶颈

(@ 新智元)

2、Snap 联合高通研发新款 Spectacles:搭载 Snapdragon XR 平台,支持端侧 AI 交互

图片

Snap 旗下 AR 硬件子公司 Specs 与高通(Qualcomm)达成多年战略合作伙伴关系,确定下一代 Spectacles 智能眼镜将采用 Snapdragon XR 芯片平台。此次合作旨在通过底层算力升级,在今年年内推出具备端侧 AI 处理能力的消费级可穿戴设备

( @TechCrunch)

02 有亮点的产品

1、Mizzen Insight 完成近千万美元天使轮 + 融资,4 个月从 0 到 300+ 客户

图片

图片

AI 用户研究平台 Mizzen Insight 已完成天使 + 轮融资,融资金额近千万美元,由红杉中国种子基金领投,达晨创投、嘉程资本跟投,种子轮老股东 Creekstone 继续加码。本轮融资将主要用于模型能力优化、产品迭代及市场拓展。

( @Z Potentials)

2、AI 潮玩品牌 MOMOTOY 获数千万元融资:自研五大 AI 技术体系,支持端云协同与本地化数据处理

图片

图片

AI 潮玩品牌 MOMOTOY 完成数千万元融资(投后估值 2.5 亿元),由翼朴基金投资。该公司将 AI 技术与高奢材质(如 999 足金)引入潮玩硬件,试图通过自研情感计算模型实现从静态摆件向具身智能终端的转型。

@36 氪未来消费)

03 Real-Time AI Demo

1、Vibe Ring 实现 Switch 健身环语音输入:挤压健身环 = 长按 Fn

来自 X 上的开发者 @wong2__:

沉迷 Vibe Coding 却疏于锻炼?快来试试 Vibe Ring!

把落灰的 Switch 健身环和 Mac 按键映射:

  1. 挤压健身环 = 长按 Fn 语音输入

  2. 向外拉健身环 = 回车发送

GitHub 链接:

https://github.com/wong2/vibe-ring/blob/main/README_CN.md

图片

图片

图片

04 有态度的观点

1、别只敲键盘了!吴恩达最新研判:语音 AI 正引爆下一场交互革命

近日,人工智能先驱吴恩达(Andrew Ng)撰文指出,大众严重低估了语音用户界面(Voice UI)即将带来的颠覆性影响。他预言,语音交互将成为继「鼠标点击」和「屏幕触控」之后的下一次重大 UI 变革。

回顾科技史,每一次交互方式的跃迁都会催生出庞大的全新应用生态。吴恩达强调,读写是需要系统学习的技能,而「听和说」则是人类与生俱来的本能。由于开发者群体普遍具备较高的读写能力,人们很容易忽视「打字操作」对许多普通用户而言仍是一种摩擦力。随着语音识别准确率的飙升,语音 UI 将彻底打破这一门槛,让科幻电影中「对着计算机直接下达指令」的愿景成为现实。

过去,语音 AI 常常面临一个死结:要低延迟(反应快)就容易显得「智商低」,要高智能(经过大模型深思熟虑)就必然带来高延迟。对此,吴恩达分享了目前行业前沿的解法——「双智能体自定义架构」。即通过前台智能体(Foreground Agent)与用户保持低延迟的实时语音拉扯,同时让后台智能体(Background Agent)默默处理复杂的逻辑推理、工具调用和安全护栏。这种协同作战,完美兼顾了沟通的流畅度与 AI 的聪明才智。

吴恩达明确表示,语音并不会消灭键盘和鼠标,而是最强力的补充。纯语音交互存在局限,但「视觉 + 语音」的多模态结合将带来颠覆性体验。系统可以在听取用户指令的同时,实时动态更新屏幕上的画面和动画,形成视觉与听觉的双重闭环。

如今,构建语音 UI 的门槛已大幅降低。吴恩达透露,借助 AI 编程工具,他仅用不到一小时就为一款普通的数学应用加上了语音交互层。在全球范围内,真正下场开发语音应用的开发者仍是凤毛麟角。

正如吴恩达在信末的呼吁:这片蕴含着巨大创新的处女地已经敞开。在这个 AI 爆发的时代,是时候给你的应用装上「声带」,让它和世界真正对话了!

(@Deeplearning AI)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流