图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、 Google I/O 2026:Google 发力多模态交互:Gemini Omni 全模态模型、语音生成文档 Docs Live、智能眼镜细化「音频」+「显示」双架构

Gemini Omni:支持全模态端到端生成与对话式序列视频编辑

Google 发布 Gemini Omni 系列首个模型 Gemini Omni Flash。该模型基于原生多模态架构,支持将视频、图像、音频和文本进行任意组合输入,生成并编辑高质量视频,并实现了物理规律理解与多轮对话逻辑的一致性。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

Docs Live:支持非结构化语音生成文档,夏季推向全线 Workspace

Google 推出 Docs Live 语音交互功能,利用底层音频模型的技术飞跃,将 Gemini 的交互模式从「精确指令(Prompt)驱动」转向「非结构化口述驱动」。用户通过麦克风表达原始想法系统可自动解析并重构为逻辑完整的文档。

智能眼镜双版本架构:集成 Gemini 智能体,音频版定于秋季商用

Google 细化了智能眼镜(Intelligent Eyewear)项目路径,分为主打耳边实时语音提醒的「音频眼镜」与主打视觉信息即时呈现的「显示眼镜」,分别解决听觉协助与视觉增强两个维度。

设备不再仅作为蓝牙外设,而是 Gemini 的硬件入口,支持全语音唤醒与跨模态交互,强调复杂任务的免提处理。

音频版已完成商业化准备,计划于今年秋天晚些时候推出。该款眼镜由谷歌/三星/高通联手 Gentle Monster 和 Warby Parker 打造。搭配安卓终端或 iPhone,用户将无需拿出手机即可获取导航信息、发送短信、拍摄照片等等。

(@ 谷歌黑板报、@VR42、)

2、SONAR 语音评估框架发布:引入加权语义相似度的 PSDN 指标,解决低资源语言 ASR 评估失真

针对主流 ASR(自动语音识别)评测基准在低资源语言及真实环境下的局限性,研究团队推出评估框架 SONAR。该框架通过整合 WER、CER 及高权重的语义相似度指标,提供具备诊断性的模型评估方案,旨在解决全球 30 亿低资源语言使用者面临的 AI 基础设施失配问题

https://psdn.ai/blog/sonar-evaluating-voice-ai-beyond-english

( @psdnai\@X@psdnai blog)

3、Qwen3.5-LiveTranslate-Flash 发布:端到端延迟降至 2.8s,支持 60 语种实时音色克隆

阿里 Qwen 团队发布基于 Qwen3.5-Omni Thinker-Talker 架构的实时翻译大模型 Qwen3.5-LiveTranslate-Flash。该模型通过流式输入与可读单元控制技术,显著降低了语音同传延迟,并实现了跨语言的动态音色复刻,主要面向跨境直播、国际会议及智能硬件场景

Blog:

https://qwen.ai/blog?id=qwen3.5-livetranslate

Demo:

https://omni.qwen.ai/live-translate

02 有亮点的产品

1、美图入局 Visual Agent,Chance AI 完成数百万美元天使轮融资

图片

Visual Agent 创业公司 Chance AI 宣布完成数百万美元天使轮融资,本轮由美图领投、NYX Ventures、阿里系投资机构等跟投。融资将主要用于模型能力迭代、北美学生群体渗透、以及社区与商业化探索。

Chance AI 成立于 2025 年 8 月,创始人兼 CEO 曾熙博士拥有认知科学、消费电子和 AI 产品的交叉背景,曾在 OnePlus、OPPO、字节跳动参与智能硬件产品、系统体验和 AI 产品从 0 到 1 的建设。

Chance AI 切入的是一个正在发生的 AI 交互跃迁:从输入框到摄像头,从文字提问到视觉理解。与过往的 chatbot 和视觉搜索工具相比,Chance AI 是第一个将「意义推理」作为核心能力的 Visual Agent

「真实世界不是以 prompt 的方式发生的。」Chance AI 创始人兼 CEO 曾熙博士表示,「人类理解世界的第一步往往不是提问,而是看见。Chance AI 想做的,是让 AI 从用户看到的世界开始理解意图,并帮助用户完成判断、表达和行动。视觉是人类最直觉的交互。」

美图全球投资负责人表示:「我们相信,AI 消费应用的下一阶段,是更自然地进入用户的日常决策与表达过程。我们看到 Chance AI 让视觉 AI 从图像识别走向审美品味。这也是我们投资它的原因——他们把复杂的 AI 能力产品化,带进了全球年轻用户的审美生活中。

(@Founder Park)

2、苹果硬件团队第二轮重组,斯鲁吉加速产品开发

报道称,苹果新任首席硬件官约翰尼 · 斯鲁吉(Johny Srouji)正推动上任后的第二轮团队重组,重点是重新分配产品设计、硬件工程和关键底层技术团队的职责

古尔曼透露在本轮调整中,苹果公司主要产品设计原本由凯特・伯杰龙(Kate Bergeron)负责,接下来将交给她的两名副手 Shelly Goldberg 和 Dave Pakula 分担。

伯杰龙的新职位是接替汤姆 · 马里布(Tom Marieb),统筹所有产品可靠性工作,并继续负责材料使用相关团队。而马里布接任负责苹果的硬件工程部门,负责实体产品的研发、生产与品控

在特努斯 9 月 1 日出任 Apple CEO,原本归属其体系下的两名高管也改为直接向 Srouji 汇报。其中,Matt Costello 负责过 Apple 家居与音频产品开发,Kevin Lynch 则负责一个特殊项目团队,重点推进机器人设备研发。

另一项值得关注的变化是,Apple 基带负责人 Zongjian Chen 的权限继续扩大。除了基带,他还将接手电池、相机工程团队,以及传感器软件开发,其中就包括 Apple Watch 无创血糖检测项目

(@ 极客公园)

03 有态度的观点

1、强化学习之父 Sutton 重申「苦涩的教训」引争议

图片

强化学习之父 Richard Sutton 昨日在 X 发文,用 26 个英文单词重申了他在 2019 年提出的「苦涩的教训」:

AI 发展不应被人类知识分散注意力,而应专注于能随算力扩展的通用方法,例如搜索与学习。

「苦涩的教训」首发于 2019 年,是 AI 领域流传最广的论断之一。Sutton 梳理数十年 AI 历史后指出,研究者反复试图将人类专业知识编入系统,但依靠算力扩展的通用方法每次都会胜出——计算机象棋、围棋、语音识别都是如此。

这一论断后来成为大语言模型「规模扩展」路线的重要理论依据。

此次 26 字浓缩版发出后,多位学者直接提出异议。机器学习奠基人 Thomas G。 Dietterich 回复称,研究人类知识的抽象结构能够为 AI 标定认知盲区,这种工作不应被称为「分心」。

评论区中,一篇题为《甜蜜的教训》的长文被多次引用。The Innovation Game 联合创始人兼首席科学家 John Fletcher 在文中提出,Sutton 的论断本身就是一种「编码知识」,它能告诉你终点在哪,但无法告诉你如何抵达。

Fletcher 认为,当前训练数据面临书面语料枯竭的瓶颈,专家大脑中从未被写下来的「隐性知识」——直觉、经验、判断力,才是产业当前竞争的真正战场。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、上海,来了!5.30 OceanBase × LangChain 重磅联手,首发「AgentSeek」定义企业级智能体开发新范式

本次活动的核心亮点,是发布 OceanBase 自研的 AgentSeek 企业级智能体工程解决方案

无论是技术决策者、架构师,还是一线开发者,这次 Meetup 都将让你:

图片

详情链接:

https://mp.weixin.qq.com/s/pu95tlZwRQpUjtUFt6GvYA

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流