AI测试 iOS 26 新增实时翻译：基于端侧并向第三方开放接口；Neuralink 和 Grok 使渐冻症患者重新「发声」丨日报

RTE开发者社区 · 2025年06月10日 · 3512 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭，@ 鲍勃

01 有话题的技术

1、Direct3D-S2：影视级 3D 生成模型，仅需 8 块 GPU 即可训练，效果超越许多闭源商用模型

DreamTech 与南大、复旦和牛津联合推出的 Direct3D-S2 开源 3D 生成模型，在 HuggingFace 热榜中表现卓越，仅需 8 块 GPU 即可训练，效果超越许多闭源商用模型，达到了影视级精细度。其核心创新 —— 空间稀疏注意力机制（SSA）显著提升了生成效率和细节表现，解决了传统 3D 建模面临的计算压力和复杂度问题。

在 Direct3D-S2 中，DreamTech 团队提出了一项核心创新——空间稀疏注意力机制（Spatial Sparse Attention， SSA）。

这一机制专为解决当前 Diffusion Transformer（DiT）在处理高分辨率 3D 生成时效率低、精细度差的问题而设计，堪称 3D 生成领域的效率引擎。

相关链接：https://arxiv.org/pdf/2505.17412

相关链接：https://github.com/DreamTechAI/Direct3D-S2

相关链接：https://www.neural4d.com/research/direct3d-s2/

相关链接：https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo（@ 新智元、@ 果比 AI）

2、Neuralink 和 Grok 合作，脑机芯片为渐冻症患者赋予「发声」能力

近日，马斯克在 X 上转发的一则案例显示：Neuralink 和 Grok 正合作使渐冻症患者重新「发声」。

通过脑机接口技术，一名渐冻症患者成功实现了用意念输出文字，并借助 AI 完成语句补全和声音克隆，最终以接近本人的声音「说话」。这一突破性进展源于 Neuralink 的脑机芯片植入技术，以及 Grok 强大的自然语言处理能力。

具体来说，患者只需通过思考即可移动光标生成文本，Grok 助手则像「读心术」一样自动更正并补全文本，最后通过 AI 克隆出患者原本的声音，让交流更加自然。

马斯克转发的帖子原出处 Mario Nawfal 此前介绍，患者 Bradford Smith 因为渐冻症丧失了行动和说话能力，而 Neuralink 使其能够通过思考来生成文本，Grok 则可以实现「读心术」式的自动更正，再通过另一个 AI「克隆」的其真实声音，从而使他「说话」时能够拥有听起来就像本人的声音。

今年 5 月，Neuralink 的脑机接口设备 Link 获得了美国 FDA 的「突破性设备」认证，专门用于帮助严重语言障碍患者恢复沟通能力。

新闻链接：https://www.ithome.com/0/859/328.htm

X 链接：https://x.com/MarioNawfal/status/1928406038803558837（@IT 之家、@ 新智讯）

3、开源框架 Rowboat：快速构建智能助手，支持 MCP、Agent SDK

由 Y Combinator 支持的开源多智能体开发框架 Rowboat 亮相，支持 MCP 服务和 OpenAI Agent SDK。框架由 Agent、Playground 和 Co pilot 三大模块构成，方便用户快速构建、测试和部署智能助手。

Agent，主要负责处理对话的特定部分，并能依据指令使用工具执行任务。其亮点在于可通过自然语言指令进行配置，能以图的形式在智能体之间进行编排，还可访问工具和 RAG。
Playground，这是一个交互式环境，方便用户在构建助手时以对话方式进行测试。它具备实时测试和调试功能，可在界面内检查工具调用的参数和结果，能与单个智能体或整个助手进行对话。
Copilot，由 AI 驱动的辅助工具，可代用户创建和更新智能体与工具。能感知包括演练场在内的所有组件的上下文，可根据对话和反馈优化智能体，能理解用户以自然语言提出的请求。

用户可创建多智能体，如信用卡助手，实现任务协同。Rowboat 还提供 HTTP API 和 Python SDK，适应多样开发场景。目前，Rowboat 在 Github 已经超过 2000 颗星。

开源地址：https://github.com/rowboatlabs/rowboat?tab=readme-ov-file（@AIGC 开放社区、@OneThingAI Lab）

02 有亮点的产品

1、Apple Intelligence 实时翻译功能：基于端侧、横框多个应用、向第三方开发者开放

在 Apple 最新发布的 iOS 26 中，Apple Intelligence 支持实时翻译功能，这个功能横跨电话、信息与 Facetime 三个通讯软件，当你收到外语信息时，系统会自动将其翻译成你的语言；相关功能已集成到信息、电话等 App 中，能够实现即时翻译文本和音频，从而帮助用户跨越语言障碍。

同样的，你发出的内容也会被实时翻译成对方的语言，让跨语言交流变得前所未有的顺畅。

实时翻译功能完全基于端侧，你的对话内容不会由此流通到任何未经允许的地方。

由 Apple Intelligence 驱动的实时翻译功能将通过 API 接口，向所有第三方开发者开放，开发者可以将实时翻译功能集成到任何通讯软件中。

过去一年，苹果在海外推出了如 Genmoji、图乐园等 AI 功能，帮助用户更自由、有趣地表达内容，而外界最为关心的 AI Siri 将什么时候落地，在今年 WWDC 依旧并没有给出具体的日期。

语言适配方面倒是有所进展，Apple 智能将在今年年底前支持这些语言：丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文和越南语。

苹果宣布推出 Foundation Models Framework。这是一项全新的 API，允许第三方开发者调用 Apple Intelligence 核心的大型语言模型（LLM），并将其集成到自家应用中。

开发者无需构建自己的 AI 模型，也不必依赖云端服务，就能在自己的 App 中调用一个功能强大、响应快速、且重视隐私保护的智能助手。更重要的是，不怕断网，离线也能运行。（@APPSO、@IT 之家）

2、Talking Tours：Google 发布的 AI 导游，支持实时对话互动

打开 Talking Tours 页面，你会看到一张互动地图，涵盖全球多个文化地标和自然景观，分为多个主题：文化机构（博物馆、图书馆、剧院）、地标建筑、古迹和自然景观（森林、洞穴、沙漠、园林、海洋）。

点击地图上的坐标，即可进入对应地点的沉浸式街景视图。AI 导游会通过语音讲解该地点的背景信息，比如某所博物馆的建筑风格、历史典故，甚至细节到展厅里壁纸的设计灵感。

切换画面后，点击「take a snapshot」按钮，AI 会基于新画面重新生成一段讲解，换个角度看，同一地点也可能讲出不同的故事。还可以点击右下角的「🙋」图标，对 AI 导游发起提问。

体验链接：https://artsandculture.google.com/experiment/8AGlfzgsYmBeIA（@Founder Park）

03 有态度的观点

1、任正非：AI 也许是人类社会最后一次技术革命

《人民日报》6 月 10 日头版刊文消息，近日，在深圳华为总部，围绕大众关心的一些热点话题，人民日报记者一行与华为 CEO 任正非面对面交流。交流中，任正非透露，在「面对外部封锁打压，遇到很多困难」时，自己坚信「不去想困难，干就完了，一步一步往前走」。

面对「人工智能（AI）的未来前景怎么看」时，任正非表示，「人工智能也许是人类社会最后一次技术革命」。其解释称：

人工智能发展要经历数十年、数百年。不要担心，中国也有很多优势。任正非还强调，人工智能在技术上的要害，是要有充足的电力、发达的信息网络。发展人工智能要有电力保障，中国的发电、电网传输都是非常好的，通信网络是世界最发达的，东数西算的理想是可能实现的。

另外，任正非还提到了其他优势：芯片问题其实没必要担心，用叠加和集群等方法，计算结果上与最先进水平是相当的。软件方面，将来是千百种开源软件满足整个社会需要。(@ APPSO)

2、OpenAI 前首席科学家：AI 会完成我们能做的一切

日前，OpenAI 前首席科学家 Ilya Sutskever 返回母校多伦多大学，在接受荣誉博士学位时发表了个人演讲。

Ilya 开篇就分享了个人心态：接受现实，尽量不去后悔过去，努力改善现状。接着，他表示，大家都处在一个真正不同寻常的时代——因为 AI 的出现。

Ilya 坦言，如今的 AI 已经在很大程度上改变了「学生」的含义，并且远不止于此。Ilya 表示，AI 能做的事情已经远超想象，而我们眼下的挑战是「AI 会如何影响我们的工作和职业」，同时也有更深层次的挑战——未来 AI 的发展将是前所未有、极其剧烈的。

他还强调：「任何我能学到的东西，任何你们中的任何一个人能够学到的东西，AI 都能学会。那么，为什么我这么确信呢？我们怎么知道 AI 将来能做这些事情呢？原因是，我们每个人的大脑都是一个生物计算机。我们有大脑，就是因为它是一个生物计算机。那么，既然人类的生物计算机能做这些事情，为什么数字计算机、也就是数字大脑不能做同样的事呢？这就是为什么我认为 AI 最终能做到所有我们能做到的事情的原因。」

对于「当 AI 能做我们所有的工作时，会发生什么？」这一问题，Ilya 认为十分需要重视。他提醒：「你可能不关心 AI，但 AI 会主动来关心你」。

因此，Ilya 建议大家，在 AI 时代下，只要你开始使用 AI，去了解当下最先进的 AI 能做些什么，你就会逐渐建立起一种直觉。「我认为，通过使用 AI 并观察当今最先进的 AI 能做什么，你会形成一种直觉。随着 AI 在一年、两年、三年内不断改进，这种直觉会变得更强烈」。慢慢的，我们能对 AI 的发展有一定的概念，自然也不会再对 AI 产生恐惧，并能够掌控 AI，激发新技术给我们带来的力量。

最后，Ilya 强调：

AI 带来的挑战是人类历史上最大的挑战。但如果我们应对得当，所获得的回报也将是人类历史上最大的回报。

演讲全程：https://youtu.be/zuZ2zaotrJs?feature=shared（@APPSO、@ 机器之心）