测试之家社区

微软升级 STT 模型 MAI-Transcribe-1.5：15 秒完成小时级音频转录；Google 基于 RCS 硬件级「数字握手」验证 AI 伪造通话丨日报

RTE — Thu, 04 Jun 2026 10:08:38 +0800

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、微软发布 STT 模型 MAI-Transcribe-1.5：15 秒完成小时级音频转录，WER 降低至 2.4%

Microsoft 发布多语言语音转文本（STT）模型 MAI-Transcribe-1.5，将支持语言扩展至 43 种。该模型通过优化推理架构，在长音频转录速度上达到竞品的 5 倍，并在保持 SOTA 级准确率的同时大幅降低了企业级部署成本。

推理效率实现 5 倍跨越：该模型可在 15 秒内完成 1 小时音频的转录。在处理长音频任务时，其吞吐性能是 Gemini 3.1、Scribe v2 及 GPT-4o-Transcribe 的 5 倍。
WER 降低至 2.4% 并登顶 FLEURS 榜单：在 FLEURS 多语言基准测试中，该模型在 43 种语言上的词错误率（WER）均处于行业领先地位；在 Artificial Analysis 综合评测中，其 WER 仅为 2.4%。
引入上下文感知的关键词偏置（Keyword Biasing）：支持用户输入特定领域的术语表（如专有人名、医学术语）。模型不再盲目强制匹配，而是结合上下文语义决定是否应用偏置，该功能使 FLEURS 测试中的 WER 进一步降低 30%。

So, um, for the next phase, Sean will, uh, take care of the documentation. Oif, right, uh, she’ll handle the user testing sessions. Societal is, um, leading the workflow design. Soren will, uh, set up the analytics, and Niamh is going to coordinate the deployment timeline.

针对噪声环境与 B 端集成优化：模型针对高背景噪声等现实生产场景进行了针对性训练。目前已完成对 Copilot、Teams、GitHub 及 Dynamics 365 的集成。
Foundry 平台最低部署成本：在 Foundry 云平台上，该模型被标记为目前所有超大规模服务商（Hyper-scaler）中成本最低、效率最高的转录方案。

参考链接：

https://microsoft.ai/news/mai-transcribe-1-5more-accurate-context-aware-and-built-for-production/

( @microsoft.ai)

2、微软发布 MAI-Voice-2：支持 15 国语言零样本语音克隆，单次参考音频仅需 5-60s

Microsoft 推出新一代文本转语音（TTS）模型 MAI-Voice-2，旨在提升商业级语音交互的自然度与情感表现力。该模型实现了从单语种到 15 种语言的原生支持，并显著增强了长文本场景下的说话者一致性，直接降低了企业构建定制化品牌语音的技术门槛与成本。

5-60 秒零样本语音克隆（Zero-shot Prompting）：开发者无需针对特定人声进行微调（Fine-tuning）或重训练，仅需 5 至 60 秒的参考音频即可在 Azure Foundry 中生成匹配说话者特征的高保真语音。
原生支持 15 种语言及跨语言混输（Code-switching）：覆盖中、英、韩、德、法等 15 种主要语言。针对印地语 - 英语、西班牙语 - 英语等特定组合优化了语种切换算法，支持句中流畅转译且不损失韵律自然度。
细粒度情感控制与「人机难辨」性能：引入 emotion tags（如尴尬、低语、兴奋等），支持开发者精确调节输出语气；在 2,222 份对比测试中，45.5% 的听众倾向于 AI 合成音，超过了人类录音 44% 的偏好度。
长文本说话者身份稳定性（Speaker Consistency）：针对有声书、播客和讲座等长篇幅音频，优化了身份特征在数小时输出过程中的一致性算法，解决了以往长文本生成易出现的音色漂移问题。
系统级许可强制机制：克隆功能在系统层实施严格管控，仅允许合成经过授权的许可语音。该功能不开放无限制克隆，开发者需提交申请并获得权限方可访问。

参考链接：

https://microsoft.ai/news/mai-voice-2expressive-speech-in-10-languages/

( @microsoft.ai)

02 有亮点的产品

1、OpenAI 现场演示无 APP 手机：所有界面实时生成，推理甩给云端 GPT

据媒体报道，在 OpenAI Voice Hack Night 活动上，一支团队现场展示了一款为手机打造的「Agentic 操作系统」原型。演示中的所有界面均为「即时生成」，无需调用任何传统 App。

其核心设计理念被概括为「UI 即系统」：手机上不再安装常规应用，界面由端侧本地模型实时生成（on the fly），重推理任务则交由云端 GPT 处理。开发者全程通过语音指令完成了一系列操作，包括预订机票、删除日历日程、查找 AI 新闻、发送邮件以及列出待办事项。

此前有消息称，OpenAI 正在加速推进其 AI 智能体手机项目，最新计划是在 2027 年上半年实现量产，这一时间表比外界普遍预期更早。

OpenAI 首席执行官山姆·奥特曼曾多次暗示公司正在研发手机项目，并表示「现在是认真重新思考操作系统和用户界面设计的合适时机」。

（@ 极客公园）

2、Google 为 Android 推出 AI 伪造通话检测：基于 RCS 的硬件级「数字握手」验证

Google 在 Android 系统（Phone by Google 应用）中上线 AI 伪造通话检测功能，旨在对抗利用深度伪造（Deepfake）音频进行的号码欺诈。该功能通过建立设备间的验证机制，实时拦截冒充联系人、家人或权威机构的冒名电话。

RCS 驱动的「数字握手」协议： 验证过程基于 Rich Communication Services（RCS）协议。当拨打方发起通话时，其设备会向接收方发送静默确认信号以验证合法性。
双向状态校验机制： 若接收端未收到初始确认信号（判定为欺诈冒用），系统会自动向被冒充联系人的真实硬件发起状态查询；若真实硬件反馈当前未处于拨号状态，接收端将立即触发挂断警告。
底层默认开启： 该功能在系统底层默认激活，无需用户干预即可在后台自动运行。
跨平台扩展性： Google 已将该技术框架构建于 RCS 之上，并向第三方应用和硬件厂商开放接口，支持更广泛的生态接入。兼容 Android 12 及更高版本的系统，首批推送涵盖 Pixel 系列设备。

( @TechCrunch)

###

03 有态度的观点

1、山姆 · 奥特曼承认错误：拥抱 AI 最积极的公司仍在招聘

OpenAI CEO Sam Altman 昨日在 CNBC 采访中指出，在他所接触的大型企业样本中，AI 采用程度最深的公司，反而正在大规模招聘；而那些以 AI 为由宣布裁员的公司，往往是 AI 落地最慢的一批。

Altman 表示，AI 可以成为企业解释裁员的「便利借口」，但这与技术实际应用情况并不相符。他同时承认，自己对 AI 影响就业的判断正在变得更为乐观，原因是观察到企业在使用 OpenAI 编程工具 Codex 等产品后，并未出现预期中的岗位萎缩。

他将这一现象归因于大模型自身的局限性——

这些模型在某些事情上表现极好，但在长期、复杂任务的监督执行上完全力不从心。

Altman 还就 OpenAI 此前的公关表述表示遗憾。他指出，去年 12 月一份有关 GPT-5.2 的新闻稿声称该模型「在 44 个职业中超越专业人士」，措辞过于笼统，引发了不必要的公众焦虑。

我们应该说，它在 44 个职业的细分任务上超越专业人士，这才是更准确的说法。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

胡彦斌也在 AI Coding 的时代，开发语音智能体也是一句话的事情了

RTE — Thu, 04 Jun 2026 10:03:17 +0800

搭一个 Voice Agent，总共分几步？

第一步，安装 agora skills；
第二步，一句提示词：“帮我做一个语音助手”；
第三步，与 Agent 对话

想做一个能实时语音对话的 AI Agent——"你说话它立刻回，还能打断"那种。

但打开编辑器之后，大概率会卡在第一步：选方案、注册、配密钥、找 Sample、调 SDK……还没写到业务逻辑，兴致已经磨掉一半。

"配环境比写代码还累"——这个体感，懂的都懂。

Agora Skills 是来解决这个问题的

它不是一个框架，也不是一个 SDK。它是一份给 AI 看的"说明书"——丢进 Claude Code、Cursor，或者任何一个编程助手里，它们就学会了怎么操作 Agora 的全套基础设施。

官方 Quick Start 只有一句话：

Install the Agora skill from *https://github.com/AgoraIO/skills and use it. I want to build a voice AI agent demo. Walk me through the full setup.*

然后 AI 会自己完成：

登录 Agora 控制台（没账号就自动引导注册）
创建项目，提取相关 ID
克隆对应技术栈的 Conversational AI Sample
本地运行，让你直接和 Agent 对话

开发者主要负责提需求和验收。

为什么值得关注 Voice Agent？

AI 硬件在找"嘴"和"耳朵"。AI 玩具、可穿戴设备、车载助手、机器人——这些场景不需要打字界面，需要低延迟的实时语音交互。你写的 Agent 可能明天就能跑在某个硬件上。

对话体验在进化。用户要的不是"我说一句、我等三秒、你回一句"的回合制，而是打断、插话、情绪同步——这依赖真正的实时音视频传输。

开发成本在骤降。Agora Skills 这类工具的出现，把"从想法到可对话 Demo"的时间从几天压缩到十几分钟。Demo 快了，迭代就快了，MVP 验证的成本就低了。

安装方式

npx 一键装
npx skills add github:AgoraIO/skills

Agora Skills 适用于 cursor、codex、Claude code 等 AI 编程助手，或者任何可以读取基于 skill.md 的环境。

Agora Skills 让 M5STACK 开口说话

适合谁玩？

想快速验证 Voice Agent idea 的产品开发者
在做 AI 硬件（玩具、穿戴、车载、机器人）需要实时语音能力的工程师
想给现有应用加"能听会说"能力的全栈开发者
单纯好奇"AI 编程助手能做到什么程度"的技术爱好者

去试试，现在就能跑起来

GitHub 指路 https://github.com/AgoraIO/skills

现在安装，今晚就能搭个能说话的 Agent。不管是 AI 陪伴、智能客服、语音玩具，还是接进自己的硬件项目，有个能跑起来的 Demo 比什么都重要。

如果用 Agora skills 做了有意思的项目，欢迎来 RTE 开发者社区分享。我们很乐意帮你曝光，也期待看到你的 Demo 视频。

💬 欢迎在评论区聊聊：

你想做一个什么样的语音 Agent？

当研发拥抱 AI 我做了什么

Acoment — Thu, 04 Jun 2026 08:46:32 +0800

上图了，不会排版

货拉拉移动端测试工程师，正编岗位，有意向速投简历。机不可失

aiqinbolan — Wed, 03 Jun 2026 17:14:14 +0800

岗位职责：
1、参与需求全生命周期的质量保障工作，进行需求分析、制定测试计划、风险评估、测试设计，测试过程的相关活动等。
2、参与移动端质量效能方向建设，能够使用 AI 测试提效工具完成测试工具/自动测试框架/测试脚本实现等，提高测试质量和效率。
3、能与产品、研发团队紧密合作，从质量管理的角度推动整体项目或需求高质量按时交付。

任职要求：
1、本科以上学历，计算机相关专业，5 年以上移动端（Android/iOS）测试相关经验；
2、有较强的代码能力，熟悉 Java，有过工具、平台开发、AI Agent/Skill 开发经验，具备良好的产品思维；
3、有很强的质量意识，有责任感主动性强，有良好的分析定位、解决问题的能力以及团队合作精神，能适应一定压力的工作。

base 深圳上梅林
邮箱：albertjeff.lin@huolala.cn

【工程院院士等大咖云集、连续 3 届稳定 EI 检索】第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

leisigoule — Wed, 03 Jun 2026 16:14:46 +0800

985 高校 + 双一流高校联合主办 | 官方媒体报道 | 连续 3 年稳定 EI 检索 | 高录用率

第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

2026 4th International Conference on Remote Sensing, Mapping and Geographic Information Systems

会议更多详情及议题投稿入口：https://ais.cn/u/iiIzqy

大会时间：2026 年 7 月 10-12 日

大会地点：陕西西安

收录检索：EI ✅Scopus✅

出版签约：SPIE： (ISSN: 0277-786X)

大会简介

第四届遥感、测绘与地理信息系统国际学术会议（RSMG 2026）将于2026年7月10日-12 日在中国西安隆重举行（线上线下均可参会）。RSMG2026 依托三届优秀会议历史及学术研究成果，将继续聚焦遥感技术、测绘科学与地理信息系统的前沿发展，涵盖卫星遥感、智能测绘、时空大数据、数字孪生、自然资源监测、智慧城市等热点方向，为全球学者搭建高水平学术交流平台。

本次会议积极响应国家 “十四五” 规划对地理信息产业升级的战略部署，结合河南省 “数字化转型战略” 及 “中原科技城” 建设需求，推动遥感测绘技术与地理信息科学在黄河流域生态保护、农业现代化、灾害监测、智慧交通等领域的创新应用。会议将特邀国内外知名专家作主旨报告，设立专题研讨、青年学者论坛及产学研对接会，促进学术成果转化与跨领域合作。

我们诚挚邀请国内外高校、科研院所专家学者、行业企业代表及政府相关部门共聚西安，分享最新研究成果，探讨学科发展趋势，深化国际合作，共同推动遥感、测绘与地理信息技术的产学研融合发展，助力数字中国与生态文明建设。

组织单位

征稿主题

会议论文集

【工程院院士等大咖云集、连续 3 届稳定 EI 检索】第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

leisigoule — Wed, 03 Jun 2026 16:14:15 +0800

985 高校 + 双一流高校联合主办 | 官方媒体报道 | 连续 3 年稳定 EI 检索 | 高录用率

第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

2026 4th International Conference on Remote Sensing, Mapping and Geographic Information Systems

会议更多详情及议题投稿入口：https://ais.cn/u/iiIzqy

大会时间：2026 年 7 月 10-12 日

大会地点：陕西西安

收录检索：EI ✅Scopus✅

出版签约：SPIE： (ISSN: 0277-786X)

大会简介

组织单位

征稿主题

会议论文集

【工程院院士等大咖云集、连续 3 届稳定 EI 检索】第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

leisigoule — Wed, 03 Jun 2026 16:14:00 +0800

985 高校 + 双一流高校联合主办 | 官方媒体报道 | 连续 3 年稳定 EI 检索 | 高录用率

第四届遥感、测绘与地理信息系统国际学术会议 (RSMG 2026)

2026 4th International Conference on Remote Sensing, Mapping and Geographic Information Systems

会议更多详情及议题投稿入口：https://ais.cn/u/iiIzqy

大会时间：2026 年 7 月 10-12 日

大会地点：陕西西安

收录检索：EI ✅Scopus✅

出版签约：SPIE： (ISSN: 0277-786X)

大会简介

组织单位

征稿主题

会议论文集

智谱进军教育硬件市场，发布 AI 拍学机与学问卡；NVIDIA 开源物理 AI 基模 Cosmos 3 丨日报

RTE — Wed, 03 Jun 2026 11:07:15 +0800

开发者朋友们大家好：

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、高德 PilotTTS 开源：基于 20 万小时数据实现 SOTA，引入 Q-Former + CAMPPlus 双通路解耦架构

高德技术推出了一套名为 PilotTTS 的轻量级自回归语音合成系统，通过双通路条件解耦架构与三阶段精细化数据工程，在仅使用 20 万小时开源数据的条件下，于 Seed-TTS Eval 基准测试中实现了超越大规模数据训练方案的说话人相似度与内容准确率。

模块化架构集成：采用 Qwen3-0.6B 语言模型作为自回归骨架，集成 CosyVoice 3 的单码本 FSQ 分词器（25Hz）及基于 DiT（Diffusion Transformer）的条件流匹配（CFM）解码器，规避了多码本残差量化等高复杂度设计。
解耦条件机制创新：引入 Q-Former 与 CAMPPlus 双通路设计。Q-Former 配合冻结的 w2v-BERT 提取动态风格（语速、韵律、节奏），CAMPPlus 提取全局静态身份特征，解决了单一嵌入向量易丢失风格信息以及音频 token 续写鲁棒性差的问题。
核心性能参数：在 Seed-TTS Eval 评测中，中/英文说话人相似度（SIM）分别达 0.862 和 0.815，均位列对比系统第一；英文词错率（WER）为 1.50%，中文字错率（CER）为 0.87%，在数据量显著低于竞品的情况下实现 SOTA 指标。
可复现数据流水线：构建了包含 DNSMOS 评估、ASR 交叉转录、Qwen3-Force-Alignment 韵律标注及多维联合过滤的三阶段开源流水线，通过精细化标注提升了约 20 万小时存量数据的利用效率。
多维受控合成能力：通过后训练（Post-training）支持 11 类情感控制（平均成功率 88.1%）、4 类副语言行为（如包裹式笑声、哭腔）以及 14 种中国方言的零样本跨样本合成。

项目已全面开源，包括三阶段数据流水线配方、预训练模型权重（自回归模块及 CFM 解码器）以及支持零样本克隆与多维控制的训练/推理代码。

更多 Demo:

https://amapvoice.github.io/PilotTTS/

原文链接：

高德 PilotTTS：通过开源算子、架构微调和精细数据工程，跑通可复现的 SOTA 语音合成之路

（@ 高德技术）

2、NVIDIA 开源 Cosmos 3：16B/64B 双塔架构 MoT 模型，支持 4-bit 量化与物理动作生成

NVIDIA（英伟达）正式开源了针对物理 AI 领域设计的基座模型 Cosmos 3。该模型通过统一的混合 Transformer（MoT）架构，将物理推理、环境模拟与动作生成整合进单一模型，旨在为机器人、自动驾驶及智能空间提供具备物理常识的预测与控制能力。

双塔式 MoT 架构实现能力解耦：模型由 Reasoner（推理塔）和 Generator（生成塔）组成。推理塔作为「大脑」，采用自回归 VLM 架构解释多模态观测数据；生成塔则基于扩散过程，在推理塔的引导下生成物理一致的视频和动作序列（Action Sequences）。
分级参数与硬件适配优化：提供 16B 参数的 Cosmos 3 Nano（针对 RTX 6000 等工作站级 GPU 实时推理优化）以及 64B 参数的 Cosmos 3 Super（针对 Hopper 与 Blackwell 架构，用于大规模合成数据生成和高精度推理）。
原生支持多模态动作生成：模型不仅支持 Text/Image-to-Video，更核心的突破在于支持 Action-conditioned 世界模型。开发者可通过 Action+Video+Text 输入，输出符合物理定律的未来观测画面或直接生成机器人策略（Policy）。
全栈推理加速与量化方案：通过 NIM 微服务支持 NVFP4（4-bit 浮点）量化，推理速度提升达 2 倍。引入高效视频采样（EVS）技术，在块（Chunk）级别对视频 token 进行去重，显著降低 VLM 处理长视频时的显存压力。
物理 AI 专用数据集与评测框架：同步开源 6 类合成数据集（SDG），涵盖具身智能、空间推理、自动驾驶等场景。推出 HUE 评测框架，将视频生成的评估从主观打分转向基于几何推理、物理规律等维度的原子级事实校验。

参考链接：

https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/

( @NVIDIAAI\@X)

3、SpaceXAI 招聘中文 AI Tutor 远程岗位旨在强化 Grok 多方言语音交互与跨文化转录能力

SpaceXAI 官方发布 「AI Tutor - Chinese」 招聘信息，提供全球远程办公机会。

该职位主要负责多语言音频数据的标注、注释与录制。目标在于训练并提升 Grok 模型在语音交互、口音变化及跨文化语境下的处理能力。

应聘者需具备中文母语水平，熟悉方言及口音差异。同时需要英语 B2 水平，并拥有出色的跨口音高精度语音转录能力。

职位形式涵盖全职、兼职或承包商。美国地区时薪为 35 至 45 美元，且不提供签证赞助。

（@ 橘鸦 Juya）

02 有亮点的产品

1、智谱发布两款教育硬件：内置 GLM 大模型，支持多模态交互与逻辑引导问答

大模型公司智谱（Zhipu AI）正式进军教育硬件市场，发布「智谱灵玑」系列两款新品：AI 拍学机与 AI 学问卡。两款设备均原生搭载自研 GLM 大模型，旨在通过软硬一体化方案解决儿童启蒙及中小学生自主学习中的交互与答疑需求。

原生 GLM 模型深度整合：硬件内置智谱自研 GLM 大模型，提供万物识别、AI 讲故事、中英双语对话等能力，并支持「涂鸦生图」（草图自动上色）和「创意滤镜」等 AIGC 图像功能。
思维引导型逻辑架构：AI 学问卡采用墨水屏设计，功能逻辑从「直接给答案」转向「AI 引导思考」，通过大模型拆解解题思路，旨在培养学生的自主逻辑推导能力。
端侧轻量化系统优化：拍学机配备专为儿童定制的轻量级系统，优化了开机速度与操作响应延迟，提供多角色陪伴（如百科博士、口语搭子）交互界面。
多维数据闭环与家校互联：通过配套小程序，设备可将学生学习数据转化为「兴趣画像」、每日话题和周报任务，实现基于 LLM 分析的个性化学习管理。

（@ 多知）

2、掌阅发布 AI 智能体潮玩 CreMoMo：集成自研情感大模型，支持 4G 通讯与抢票智能体

掌阅（iReader）正式发布人格化 AI 硬件 CreMoMo，定价 999 元。该产品通过集成自研情感大模型与长效记忆系统，实现了从单一情感陪伴向任务驱动型硬件的转型，旨在利用 AI 智能体能力切入泛二次元及高净值情感消费市场，以扭转公司 2025 年度 1.76 亿元的净亏损困局。

自研情感大模型与非唤醒交互：搭载掌阅自研模型，具备长效记忆能力，系统可基于历史交互主动发起对话，无需传统的唤醒词触发。
硬件级多模态感知与反馈：产品配备高清原创 Emoji 动态眼神屏，内置物理动作感应模组，支持触摸、轻拍、摇晃等物理交互的实时表情与语音反馈。
集成 AI 智能体（Agent）效率中心：支持用户授权后的场景化任务执行，包括自动化演唱会抢票等高频、复杂操作，试图将情感 IP 转化为生产力工具。
三模通信方案与跨次元同步：支持 4G、Wi-Fi（2.4GHz）与蓝牙 5.2 连接，确保云端大模型持续在线；其「数字试衣间」功能支持线下实体娃衣与线上虚拟皮肤的单向/双向联动。
自主化社交行为模型：智能体具备独立社交逻辑，可在用户不干预的情况下在专属社交圈内执行发帖、点赞、评论及线下「碰一碰」加好友等社交动作。

（@ 新智独角兽）

3、SOND 发布 Dreambuds 睡眠耳机：集成 12 项生物信号监测，已获 700 万美元种子轮融资

由前 Bose 睡眠产品负责人与 Google 工程经理联合创立的 SOND，推出首款集成 12 种生物特征传感器的睡眠耳机 Dreambuds。该设备旨在通过实时监测 HRV 等数据实现闭环音频干预，并解决了微型可穿戴设备在多传感器并发下的功耗平衡难题，目前已获 700 万美元种子轮融资。

高密度传感器矩阵：在单侧仅 2g 出头的体积内，集成了心率、心率变异性（HRV）、呼吸频率/深度、体温、心肺耦合（CPC）及睡眠姿势等 12 种生物信号监测能力。
闭环实时算法干预：系统可根据实时检测到的睡眠阶段或 HRV 波动，动态调整音频输出（如降噪掩盖伴侣鼾声或播放平复心率的音频），实现从单纯「掩蔽」到主动「干预」的转变。
WiFi 独立通信架构：充电盒内置 WiFi 模组，支持设备脱离智能手机独立进行数据同步与固件运行，减少了对手机蓝牙连接的依赖。
长续航与能效比优化：在多传感器持续采集状态下实现 12 小时单次续航，覆盖完整睡眠周期，突破了此前 Bose 同类产品在小型化与电池容量间的工程限制。
买断制 AI 智能体：内置 AI 睡眠教练，通过分析用户睡眠趋势提供个性化建议与音频生成，且不设订阅费用，所有软件能力随硬件买断开放。

产品已于 5 月 27 日在 Kickstarter 开启众筹，计划筹集 1 万美元，现如今共计筹集超过 29 万美元，共有 619 名支持者早鸟价 449 美元起，公司已完成 700 万美元种子轮融资。

（@ 新硬见）

03 有态度的观点

1、Gurman：苹果想用眼镜复制 Apple Watch 的成功

昨晚，彭博社记者 Mark Gurman 在最新的 PowerOn 新闻通讯中透露，苹果正计划以「进入智能手表市场的方式」切入眼镜领域，将目标对准更广泛的传统眼镜市场，而非仅与 Meta 等智能眼镜厂商竞争。

苹果智能眼镜内部代号 N50，原计划今年底发布、明年初上市，目前已推迟至明年底。苹果预计瞄准 200 至 500 美元价格区间，与依视路、Safilo 集团及 Warby Parker 等传统眼镜品牌竞争。

彭博社援引世界卫生组织数据称，全球眼镜市场年规模约 2000 亿美元，远超苹果手表所对应的腕表市场。报道还提到，苹果 CEO Tim Cook 是这一项目最坚定的支持者之一，接近他的人士称智能眼镜是其任期内的「优先事项」。

即将于 9 月接任 CEO 的 John Ternus 同样深度参与该项目，负责研发的 Vision Products Group（VPG）团队过去两年一直在他的领导下运作。首代苹果眼镜将采用椭圆形摄像头设计，提供多种颜色与镜框风格。

其他产品进展方面，报道称新款 Apple TV 机顶盒与 HomePod mini 的硬件已完成数月，目前正在苹果总部员工中使用，两款产品均等待今秋新版 Siri 与 Apple Intelligence 功能就绪后同步推出。

此外，苹果已启动明年 iOS 28 与 macOS 28 的早期开发工作，内部代号分别为「Bell」与「Poppy」，合称「Boppy」。

古尔曼重申，iOS 27 主要聚焦于小修小补，而 iOS 28 将会「比 iOS 27 更加重要」。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

作者提示: 个人观点，仅供参考

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:37:54 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:36:08 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:36:05 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:36:04 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:36:03 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:36:02 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:35:59 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:35:35 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

6 月 3 日晚，和 RTE 社区一起加入 AGI Bar@ 上海开业季聚会！

RTE — Wed, 03 Jun 2026 10:35:21 +0800

🔥 6 月 3 日晚，和 RTE 开发者社区一起加入 AGI Bar@ 上海开业季聚会！，边玩边聊天！

围绕「语音 AI & 多模态 AI」，《Talk With》AI 主题桌游重返 AGI Bar。

去年夏天，RTE 社区的开发者和创业者们在 AGI Bar@ 北京，用手写卡牌和瓜子 Token 完成了《Talk With》的首次原型试玩。

今年夏天，正式发布后的《Talk With》来到 AGI Bar@ 上海，期待与你一起继续演进。

如果你正在关注：

🎙 语音 AI

👁 多模态 AI

🤖 实时对话智能体

⌚ AI 硬件

欢迎来认识新朋友，也带来你的想法。

革命性技术不一定属于最聪明的人，

而肯定属于最愿意下注的人。

扫码报名～

关于 AGI Bar@ 上海

在徐汇与红杉的支持下，AGI Bar 来到了上海。

坐标：上海市徐汇区北杨小镇，红杉中国创新加速器 (上海北杨）一层，AGI Bar

这里与创智学院、港科大上海中心为邻，旁边还坐落着米哈游等许多新锐的科技与内容企业，距离西岸也非常近。

6 月 1 号，AGI Bar@ 上海正式开业。

OpenAI 创始人力推！语音智能体 HeyClicky：语音驱动 + 任务执行；下一代视频编码标准 AV2 发布：压缩率提升 30%，优化屏幕内容编码丨日报

RTE — Tue, 02 Jun 2026 19:32:50 +0800

开发者朋友们大家好：

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、AOMedia 发布下一代视频编码标准 AV2：压缩效率提升 30%，新增原生 AR/VR 与屏幕内容优化

开放媒体联盟（AOMedia）正式发布了 AV2 v1.0 码流与解码过程规范，并同步在 GitHub 释出了 AOM 视频模型（AVM）v1.0.0 首个参考软件版本。作为免版税开源编码标准 AV1 的继任者，AV2 旨在通过算法迭代降低约 30% 的带宽成本，并针对下一代超低延迟、高分辨率以及虚拟现实（VR）等场景提供底层架构支持。由于当前软硬件生态尚未建立，该版本目前主要作为开发者和芯片厂商进行技术验证的基准。

30% 压缩效率提升：相较于前代 AV1 编码标准，AV2 在维持同等图像质量的前提下，可降低约 30% 的码率与带宽占用，或在相同带宽下显著提升视频画面解析度。
AVM 1.0.0 参考软件发布：官方交付了首个 AOM Video Model (AVM) v1.0.0 源代码，该版本作为 AV2 编解码的基准实现，为开发者提供技术评估和算法验证的起点，但目前尚未进行针对性的运行效率优化。
原生 AR/VR 与屏幕内容优化：除传统视频编解码能力外，AV2 在设计阶段即引入了针对增强现实（AR）、虚拟现实（VR）、分屏传输以及屏幕内容（Screen Content）的特定编码工具，以应对高分辨率、超低延迟和非自然纹理的压缩需求。
启动 CPU 软解项目 dav2d：由于当前主流 GPU 和 SoC 均缺乏硬件解码支持，VideoLAN 开发者已正式启动基于 CPU 的开源软件解码器 dav2d 的开发，以解决早期生态中客户端播放的性能瓶颈。

官方文档：

https://av2.aomedia.org/

GitHub:

https://github.com/AOMediaCodec/av2-spec

（@AOMedia, Phoronix, OC3D, Linuxiac）

2、NVIDIA 等发布 Gamma-World：支持多智能体对称交互的世界模型，实现 24 FPS 实时多视角推演

由 NVIDIA、清华大学及多伦多大学联合提出的 Gamma-World 是一种新型生成式多智能体世界模型。该模型通过单纯形旋转编码与稀疏枢纽注意力机制，解决了视频生成在多视角一致性、排列对称性及计算扩展性上的难题，支持在共享虚拟或物理空间中进行高效的多智能体同步模拟。

单纯形旋转智能体编码（Simplex Rotary Agent Encoding）： 将智能体身份映射至高维旋转空间中的正单纯形顶点，确保任意两个智能体间的几何距离恒定相等。该设计实现了排列对称性（Permutation Symmetry），使模型在仅接受双人数据训练的情况下，具备零样本扩展至四人及以上场景的同步推演能力。
稀疏枢纽注意力机制（Sparse Hub Attention）： 引入枢纽词元（Hub Tokens）作为共享通信中转站，将跨智能体交互的计算复杂度降低。信息流通过「智能体 - 枢纽 - 智能体」的辐射路径传递，显著降低了多智能体并行的推理延迟。
三阶段蒸馏训练方案： 流程涵盖「双向教师模型学习高质量去噪」、「因果学生模型建立自回归连贯性」以及「条件自强迫蒸馏压缩」。最终模型支持 KV 缓存，并能以 24 FPS 的帧率实时响应动作输入并生成流式推演画面。
跨领域运动一致性验证： 模型不仅在《我的世界》等虚拟协作/建造场景中表现出色，亦成功应用于 RealOmin-Open 真实机器人数据集，实现了双臂协同任务下物理特性一致的多视角未来帧预测。

论文标题：

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

论文链接：

https://arxiv.org/pdf/2605.28816

（@ 机智流）

02 有亮点的产品

1、AI 导师智能体 Koji 正式发布：集成实时视觉空间标注，支持 Socratic 式引导教学

由 MIT 与哈佛大学教育专家参与训练的 AI 导师 Koji 正式发布。该产品通过实时计算机视觉技术监控学习过程，放弃直接给出答案的生成模式，转而采用引导式对话（Coaching）辅助学生完成数学与编程逻辑推理，旨在解决生成式 AI 导致的教育「作弊」与思维退化问题。

实时视觉追踪与多模态标注： Koji 集成视觉感知能力，可实时监测学生的书写与思考过程。不同于传统文字对话框，该系统支持在学习界面上直接进行指向、草图绘制和空间标注，模拟真人导师面对面指导的交互体验。
Socratic 引导式训练模型： 模型经过特定微调，其逻辑底层拒绝直接输出最终答案。系统通过拆解知识点、提出启发式问题引导学生自主推导，侧重于培养逻辑重构能力而非单纯的信息检索。
低延迟交互架构： 开发团队在模型选择上平衡了推理深度与响应速度，采用高性能推理模型以确保在视觉反馈与实时标注过程中的超低延迟，维持学习流程的连贯性。
高性价比订阅成本： 该产品的商业化定价策略低于每日 1 美元，通过优化推理成本，试图打破高水平 1 对 1 人工辅导的高价壁垒，推动规模化部署。

(@Suekhim\@X)

2、OpenAI 创始人力推，HeyClicky 发布光标交互式 AI 智能体：语音驱动、实时生成任务智能体

开发者 Farza Majeed 团队推出了免配置、常驻系统光标旁的 AI 智能体交互界面 HeyClicky。该工具旨在提供极简的自然语言入口，用户通过语音指令即可调用模型并实时生成特定任务智能体。其已实现本地 macOS 应用开发以及 Notion、Gmail 和日历等多平台的工作流自动化。

免配置的随时光标悬浮交互：HeyClicky 常驻于用户系统光标旁，无需复杂的控制台或环境配置，支持纯语音指令（Voice-activated）交互，降低了多模态交互的调用路径。
多源第三方 API 原生集成：支持双向连接 Notion、Gmail 和 Google Calendar，智能体可直接跨平台读取、处理并写入用户数据。
本地环境 macOS 应用编译：具备本地代码生成与执行能力，允许用户通过自然语言在本地环境中直接构建并生成 macOS 原生应用程序。
场景化智能体动态生成：支持根据用户指令动态派生专用智能体，执行 Instagram 微红人定向检索、竞品分析及特定软件（如 After Effects、DaVinci Resolve）教学等任务。

目前产品已上线并开放免费试用。

https://www.heyclicky.com/

(@ycombinator)

3、VAST 获近 2 亿美元 A 轮系列融资，发布 Project Eden 世界模型：采用三层解耦架构实现环境长程持久

通用人工智能公司 VAST 宣布完成总计近 2 亿美元的 A+ 及 A++ 轮融资，由渶策资本、国寿长三角科创基金领投，荣耀产业基金等参投。同步推出的通用世界模型 Project Eden 放弃了传统的「像素生成」路径，通过原生解耦底层状态推演与视觉渲染，实现了支持多人并发交互、场景自由复用且逻辑一致的永续虚拟环境。

三层解耦式世界模型架构（Project Eden）：
- 结构化状态层（State Layer）： 统一维护 3D 几何、物体属性与事件逻辑，实现独立于相机的客观状态推演。
- 条件接口层（Interface Layer）： 将 3D 状态转化为语义及几何约束。
- 生成式渲染层（Rendering Layer）： 基于约束实时输出视觉画面。该架构解决了视频生成模型常见的物体消失与空间畸变问题。
原生 8K AI 贴图算法： 业内首个支持多通道同步生成的 8K 材质算法，将传统 3-5 天的手工制作周期压缩至 2 分钟以内，单张边际成本近乎为零，产出资产可直接接入 Unreal、Unity 及 Blender 管线。
Segmentation V2 部件拆分系统： 依托多模态 3D 结构理解模型，支持对 AI 生成的 3D 资产进行智能分件。提供低、中、高（15+ 部件）三档颗粒度控制，并引入 2D 预拆分预览机制，适配 3D 打印与游戏工业管线。
多人并发与具身智能支持： 由于状态与渲染解耦，Project Eden 支持大量真人用户与 AI 智能体在同一底层世界中进行非线性交互，为具身智能训练提供了高逻辑一致性的仿真底座。

(@VASTAI)

4、联想发布 AI 童伴机 V1：搭载 Jarvis AI 助手与 500W 翻转摄像头，定价 599 元

联想推出面向 3-12 岁儿童的 AI 拍学硬件「联想 AI 童伴机 V1」。该产品采用方块化设计，通过集成 Jarvis AI 助手与翻转镜头模组，实现了从传统通讯工具向多模态 AI 伴学终端的转型，主打识物百科与智能交互。

多模态识物系统：配备 500W 像素可翻转摄像头，支持超 300 万种物种识别，提供基于视觉输入的实时百科解答。
独立 AI 与安全物理按键：机身侧面设有专用 AI 键与 SOS 键，通过 Jarvis AI 助手支持语音对话，降低了低龄用户的交互门槛。
硬件规格与系统能力：采用 2.0 英寸触控屏，支持下载学习类第三方 App，并集成 GPS 定位、零钱支付及家长端视频通话功能。
细分品类切入：定位为「儿童方块机」，介于儿童手表与教育平板之间，利用摄像头翻转特性解决了移动场景下的桌面拍学需求。

（@ 多知）

03 有态度的观点

1、纽约联储主席：AI 正在改变工作，但经济学家岗位仍安全

据彭博社报道，在冰岛雷克雅未克举行的经济学年会上，纽约联储主席约翰·威廉姆斯对 AI 冲击就业的担忧给出了明确回应，成为本次会议中立场最为乐观的联储官员。

威廉姆斯以一句「宏观经济学家的需求依然旺盛」引发听众笑声，随即阐明他的核心判断：AI 带来的生产率提升不会导致长期结构性失业。

历史告诉我们，生产率可以不断提高、生活水平可以持续上升，而不会造成结构性失业。我不相信我们会面临长期的结构性失业。

他认为，AI 可以加速数据处理和初步分析，但经济学判断仍需要识别因果关系、理解制度背景，并把模型结论放进政策语境。他同时指出，劳动力市场的主要调整路径是再培训与技能升级，而非大规模裁员。

他特别提到，当前高校应届毕业生已普遍将 AI 工具融入日常工作，这一代劳动力在适应能力上已领先于前辈。

今天走出校园被录用的人，已经在每天使用 AI 工具了。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

作者提示: 个人观点，仅供参考

当 AI 赋能测试：现阶段是用处有限、还是帮助巨大？

dee.dun — Tue, 02 Jun 2026 16:09:48 +0800

说明：本文是根据社区最近讨论的问题，使用 AI 润色生成，文章使用 “用处有限” 和 “帮助巨大” 2 个观点进行分析。

在软件测试领域，关于 AI 是 “虚火” 还是 “真革命” 的争论从未停止。一方面，有人指出 AI 无法解决测试的根本难题，甚至带来新风险；另一方面，也有大量实践证明 AI 大幅提升了测试效率。本文不带立场，仅客观梳理两类核心观点，供读者自行判断。

一、AI 对测试用处有限

1. UI 自动化本不稳定，用了 AI 反而成本变高（这个我是赞同的）

UI 自动化的老问题——动态 ID、环境差异、异步渲染、网络波动等——并未被 AI 真正解决。AI 引入视觉模型或大语言模型来 “猜测” 控件位置，本质上是将确定性脚本换成概率模型，反而增加了新的不确定性。加上 GPU 算力和 API 调用成本高昂，原本脆弱的自动化变得更昂贵。

2. AI 无法替代测试的核心工作

软件测试的核心是理解复杂业务逻辑、发现隐含缺陷、做出质量风险决策。而 AI 存在众所周知的 “幻觉” 问题——给出看似合理实则错误的结论。用一个不确定的工具去测试不确定的系统，逻辑上存在矛盾。至少到目前为止，AI 尚无法替代人的业务直觉和批判性思维。

3. 现实落地障碍远多于宣传

数据安全合规：核心业务数据不能随意上传云端，私有化部署大模型成本极高。
成功案例不可复制：许多 “AI 测试” 演示是精选的 Demo 场景，完美避开了脏数据、异常流程、第三方依赖等真实麻烦。而生产级别的成功案例大多来自大厂——他们有专属的基建和模型调优团队，普通团队难以效仿。

4. 降低编码门槛 ≠ 减轻测试负担

AI 可以让人 “零门槛” 生成脚本，但这往往导致大量缺乏深度理解的代码涌入仓库。这些代码在业务变更时无人敢改、无人会修，最终成为新的技术债务。测试的根本负担在于理解正确性，而不是写代码的体力活——AI 对此贡献有限。

二、AI 对测试帮助巨大

1. AI 是不可逆的趋势，主动学习才能获益（这个我是赞同的）

从代码补全到日志分析，从用例生成到缺陷预测，AI 已经渗透到研发流程的各个环节。测试人员如果拒绝接触 AI，就像十年前拒绝使用版本管理工具一样，会很快被团队甩开。主动学习提示工程、模型微调、结果校验等技能，AI 就能变成强大的辅助。

2. 能力决定效果：工具无对错，用家分高低

同样的 Copilot，有人用它生成低质量断言，有人用它写出可维护的页面对象模型。同样的大模型，有人抱怨 “它不懂我的业务”，有人则通过提供示例和约束输出格式，稳定获得可用脚本。AI 是否有用，更多取决于使用者的专业能力——包括测试设计、断言规范、异常处理等基本功。

3. 已有大量真实落地场景验证效果（UI 自动化场景我就不写了，结合我司实际情况看，现阶段无法:AI+UI 自动化落地）

接口测试：AI 根据 OpenAPI 文档自动生成参数边界值用例，并智能编排执行顺序。
日志分析：AI 聚类海量错误日志，自动归纳出最可能引发故障的几种根因。
测试数据生成：AI 按业务规则生成脱敏但保持关联性的数据集，节省数天造数时间。

4. 降低测开门槛，释放人力价值

过去，业务测试人员因不懂代码而无法参与自动化。现在，借助 AI 辅助编码和自然语言生成脚本，他们可以快速产出可运行的自动化用例。这使得团队能将更多精力投入探索性测试、风险分析和质量洞察等高价值工作，而不是整天写样板代码。

5. 赋能新型测试方法

AI 扩展了传统测试的边界：

智能用例排序：基于代码变更和历史缺陷，优先执行风险最高的用例。
缺陷预测：提前标记哪些模块 “容易出 bug”，引导测试资源倾斜。
非功能测试：AI 生成极端负载模型，辅助性能瓶颈定位。

结语

“用处有限” 与 “帮助巨大” 两种观点，并不完全矛盾。前者指出了 AI 当前的技术局限和落地门槛，后者展示了在合适场景、专业使用者手中 AI 的巨大潜力。

对测试团队而言，最务实的做法也许是：

不神话 AI，也不排斥 AI。
从具体痛点出发（如元素定位脆、日志分析慢、造数据烦），小范围引入 AI 工具，量化工效提升。
培养团队驾驭 AI 的能力，而非简单使用 “AI 测试平台”。

最终，AI 不会让测试消失，但会用 AI 的测试可能会让不用 AI 的测试消失。

个人开发小程序简单，发布和审核流程好难呀，有没有个人小程序开发群可以一起交流交流

Liang2013 — Tue, 02 Jun 2026 15:07:37 +0800

用 AI 开发了一个小程序，最难的是过审，从涉及的品类，名字，介绍到小程序里用到的工具各种各种的你不知道的规则。
尝试了一下，小程序终于上线了，还要一年一审，再审又要各种备案，让你改名字。
小程序终于上线了，结果也没人访问，想要流量，必须商用推广，只能说腾讯真 TMD，这样搞，小程序永远做不强大。
程序开发出来了，大家帮忙打开一下，刷一点流量，感谢感谢！