开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。
我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭,@ 鲍勃
1、Direct3D-S2:影视级 3D 生成模型,仅需 8 块 GPU 即可训练,效果超越许多闭源商用模型
DreamTech 与南大、复旦和牛津联合推出的 Direct3D-S2 开源 3D 生成模型,在 HuggingFace 热榜中表现卓越,仅需 8 块 GPU 即可训练,效果超越许多闭源商用模型,达到了影视级精细度。其核心创新 —— 空间稀疏注意力机制(SSA)显著提升了生成效率和细节表现,解决了传统 3D 建模面临的计算压力和复杂度问题。
在 Direct3D-S2 中,DreamTech 团队提出了一项核心创新——空间稀疏注意力机制(Spatial Sparse Attention, SSA)。
这一机制专为解决当前 Diffusion Transformer(DiT)在处理高分辨率 3D 生成时效率低、精细度差的问题而设计,堪称 3D 生成领域的效率引擎。
相关链接:https://arxiv.org/pdf/2505.17412
相关链接:https://github.com/DreamTechAI/Direct3D-S2
相关链接:https://www.neural4d.com/research/direct3d-s2/
相关链接:https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo(@ 新智元、@ 果比 AI)
2、Neuralink 和 Grok 合作,脑机芯片为渐冻症患者赋予「发声」能力
近日,马斯克在 X 上转发的一则案例显示:Neuralink 和 Grok 正合作使渐冻症患者重新「发声」。
通过脑机接口技术,一名渐冻症患者成功实现了用意念输出文字,并借助 AI 完成语句补全和声音克隆,最终以接近本人的声音「说话」。这一突破性进展源于 Neuralink 的脑机芯片植入技术,以及 Grok 强大的自然语言处理能力。
具体来说,患者只需通过思考即可移动光标生成文本,Grok 助手则像「读心术」一样自动更正并补全文本,最后通过 AI 克隆出患者原本的声音,让交流更加自然。
马斯克转发的帖子原出处 Mario Nawfal 此前介绍,患者 Bradford Smith 因为渐冻症丧失了行动和说话能力,而 Neuralink 使其能够通过思考来生成文本,Grok 则可以实现「读心术」式的自动更正,再通过另一个 AI「克隆」的其真实声音,从而使他「说话」时能够拥有听起来就像本人的声音。
今年 5 月,Neuralink 的脑机接口设备 Link 获得了美国 FDA 的「突破性设备」认证,专门用于帮助严重语言障碍患者恢复沟通能力。
新闻链接:https://www.ithome.com/0/859/328.htm
X 链接:https://x.com/MarioNawfal/status/1928406038803558837(@IT 之家、@ 新智讯)
3、开源框架 Rowboat:快速构建智能助手,支持 MCP、Agent SDK
由 Y Combinator 支持的开源多智能体开发框架 Rowboat 亮相,支持 MCP 服务和 OpenAI Agent SDK。框架由 Agent、Playground 和 Co pilot 三大模块构成,方便用户快速构建、测试和部署智能助手。
Agent,主要负责处理对话的特定部分,并能依据指令使用工具执行任务。其亮点在于可通过自然语言指令进行配置,能以图的形式在智能体之间进行编排,还可访问工具和 RAG。
Playground,这是一个交互式环境,方便用户在构建助手时以对话方式进行测试。它具备实时测试和调试功能,可在界面内检查工具调用的参数和结果,能与单个智能体或整个助手进行对话。
Copilot,由 AI 驱动的辅助工具,可代用户创建和更新智能体与工具。能感知包括演练场在内的所有组件的上下文,可根据对话和反馈优化智能体,能理解用户以自然语言提出的请求。
用户可创建多智能体,如信用卡助手,实现任务协同。Rowboat 还提供 HTTP API 和 Python SDK,适应多样开发场景。目前,Rowboat 在 Github 已经超过 2000 颗星。
开源地址:https://github.com/rowboatlabs/rowboat?tab=readme-ov-file(@AIGC 开放社区、@OneThingAI Lab)
1、Apple Intelligence 实时翻译功能:基于端侧、横框多个应用、向第三方开发者开放
在 Apple 最新发布的 iOS 26 中,Apple Intelligence 支持实时翻译功能,这个功能横跨电话、信息与 Facetime 三个通讯软件,当你收到外语信息时,系统会自动将其翻译成你的语言;相关功能已集成到信息、电话等 App 中,能够实现即时翻译文本和音频,从而帮助用户跨越语言障碍。
同样的,你发出的内容也会被实时翻译成对方的语言,让跨语言交流变得前所未有的顺畅。
实时翻译功能完全基于端侧,你的对话内容不会由此流通到任何未经允许的地方。
由 Apple Intelligence 驱动的实时翻译功能将通过 API 接口,向所有第三方开发者开放,开发者可以将实时翻译功能集成到任何通讯软件中。
过去一年,苹果在海外推出了如 Genmoji、图乐园等 AI 功能,帮助用户更自由、有趣地表达内容,而外界最为关心的 AI Siri 将什么时候落地,在今年 WWDC 依旧并没有给出具体的日期。
语言适配方面倒是有所进展,Apple 智能将在今年年底前支持这些语言:丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文和越南语。
苹果宣布推出 Foundation Models Framework。这是一项全新的 API,允许第三方开发者调用 Apple Intelligence 核心的大型语言模型(LLM),并将其集成到自家应用中。
开发者无需构建自己的 AI 模型,也不必依赖云端服务,就能在自己的 App 中调用一个功能强大、响应快速、且重视隐私保护的智能助手。更重要的是,不怕断网,离线也能运行。(@APPSO、@IT 之家)
2、Talking Tours:Google 发布的 AI 导游,支持实时对话互动
打开 Talking Tours 页面,你会看到一张互动地图,涵盖全球多个文化地标和自然景观,分为多个主题:文化机构(博物馆、图书馆、剧院)、地标建筑、古迹和自然景观(森林、洞穴、沙漠、园林、海洋)。
点击地图上的坐标,即可进入对应地点的沉浸式街景视图。AI 导游会通过语音讲解该地点的背景信息,比如某所博物馆的建筑风格、历史典故,甚至细节到展厅里壁纸的设计灵感。
切换画面后,点击「take a snapshot」按钮,AI 会基于新画面重新生成一段讲解,换个角度看,同一地点也可能讲出不同的故事。还可以点击右下角的「🙋」图标,对 AI 导游发起提问。
体验链接:https://artsandculture.google.com/experiment/8AGlfzgsYmBeIA(@Founder Park)
1、任正非:AI 也许是人类社会最后一次技术革命
《人民日报》6 月 10 日头版刊文消息,近日,在深圳华为总部,围绕大众关心的一些热点话题,人民日报记者一行与华为 CEO 任正非面对面交流。交流中,任正非透露,在「面对外部封锁打压,遇到很多困难」时,自己坚信「不去想困难,干就完了,一步一步往前走」。
面对「人工智能(AI)的未来前景怎么看」时,任正非表示,「人工智能也许是人类社会最后一次技术革命」。其解释称:
人工智能发展要经历数十年、数百年。不要担心,中国也有很多优势。任正非还强调,人工智能在技术上的要害,是要有充足的电力、发达的信息网络。发展人工智能要有电力保障,中国的发电、电网传输都是非常好的,通信网络是世界最发达的,东数西算的理想是可能实现的。
另外,任正非还提到了其他优势:芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。软件方面,将来是千百种开源软件满足整个社会需要。(@ APPSO)
2、OpenAI 前首席科学家:AI 会完成我们能做的一切
日前,OpenAI 前首席科学家 Ilya Sutskever 返回母校多伦多大学,在接受荣誉博士学位时发表了个人演讲。
Ilya 开篇就分享了个人心态:接受现实,尽量不去后悔过去,努力改善现状。接着,他表示,大家都处在一个真正不同寻常的时代——因为 AI 的出现。
Ilya 坦言,如今的 AI 已经在很大程度上改变了「学生」的含义,并且远不止于此。Ilya 表示,AI 能做的事情已经远超想象,而我们眼下的挑战是「AI 会如何影响我们的工作和职业」,同时也有更深层次的挑战——未来 AI 的发展将是前所未有、极其剧烈的。
他还强调:「任何我能学到的东西,任何你们中的任何一个人能够学到的东西,AI 都能学会。那么,为什么我这么确信呢?我们怎么知道 AI 将来能做这些事情呢?原因是,我们每个人的大脑都是一个生物计算机。我们有大脑,就是因为它是一个生物计算机。那么,既然人类的生物计算机能做这些事情,为什么数字计算机、也就是数字大脑不能做同样的事呢?这就是为什么我认为 AI 最终能做到所有我们能做到的事情的原因。」
对于「当 AI 能做我们所有的工作时,会发生什么?」这一问题,Ilya 认为十分需要重视。他提醒:「你可能不关心 AI,但 AI 会主动来关心你」。
因此,Ilya 建议大家,在 AI 时代下,只要你开始使用 AI,去了解当下最先进的 AI 能做些什么,你就会逐渐建立起一种直觉。「我认为,通过使用 AI 并观察当今最先进的 AI 能做什么,你会形成一种直觉。随着 AI 在一年、两年、三年内不断改进,这种直觉会变得更强烈」。慢慢的,我们能对 AI 的发展有一定的概念,自然也不会再对 AI 产生恐惧,并能够掌控 AI,激发新技术给我们带来的力量。
最后,Ilya 强调:
AI 带来的挑战是人类历史上最大的挑战。但如果我们应对得当,所获得的回报也将是人类历史上最大的回报。
演讲全程:https://youtu.be/zuZ2zaotrJs?feature=shared(@APPSO、@ 机器之心)
更多 Voice Agent 学习笔记:
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻