开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、微软 Build 2025 大会上提出「Open Agentic Web」蓝图
微软 Build 2025 大会上提出的「智能体网络」(agentic web)概念,远远超出了当今人工智能助手的范畴。
在微软的愿景中,智能体会积极主动地发起任务、独立做出决策、与其他人工智能系统协调,并在极少的人类监督下完成复杂的工作流程。这标志着人工智能系统运行及与用户和其他技术交互方式的根本转变。
微软首席技术官凯文·斯科特称「智能体网络」(agentic web)从根本上改变了人类与技术的交互方式:「推理能力将持续提升,我们有望在这一领域取得显著进展。然而,若想让智能体承担更为复杂的工作任务,一些关键要素必须尽快实现。」
其中一个关键的缺失要素是记忆,斯科特表示:「为了解决这个问题,微软正在引入几种与记忆相关的技术,包括结构化检索增强生成(RAG),它可以帮助人工智能系统更精准地从海量数据中回忆信息。」
微软副总裁史蒂文·巴蒂奇在一场关于智能体的演讲中解释说:「你可能会拥有一个专属于个人的智能体以及一个工作专用智能体。其中,工作专用智能体将关联您与雇主的各类信息。」
巴蒂奇强调,这种情境感知对于创造智能体至关重要,它能够很好地理解用户、对用户所处的情境进行情境化,以便用户可以少点几次按钮。这种从纯粹的响应式人工智能向具有持久记忆的系统转变,代表着智能体革命最深刻的方面之一。(@ 腾讯科技)
2、GitHub 上新代码智能体 Copilot Coding Agent:自动修 bug、加功能、写文档、支持移动端
GitHub Copilot 从曾经的代码助手变成 Agent 伙伴,从「结对编程」演变为「同伴编程」,开发者可以将问题分配给 Copilot 进行错误修复、新功能开发或代码维护,它将自主完成这些任务。
当 Copilot 智能体收到任务后,首先会启动虚拟机、克隆并分析代码库,还会在工作过程中保存所做的修改,同时在日志中详细说明其推理过程。完成工作后,智能体会 @ 人类开发者进行审核。开发者可以留下评论,AI 将自动处理这些评论。智能体可以整合相关问题或 PR 讨论的上下文,并遵循任何自定义存储库指令,能够理解任务背后的意图和项目的代码标准。
GitHub 官方建议在经过充分测试的代码库中让智能体处理低到中等复杂度的任务,从添加功能、修复错误到扩展测试、重构和改进文档都可以。
甚至可以同时将多个问题分配给智能体。
Copilot 代码智能体是微软开发者大会上新发布的一部分,微软还宣布 VS Code 中的 Copilot 和 Windows Subsystem for Linux(WSL)将开源,同时上新多个新功能。(@ 量子位、@ 极客公园)
3、苹果开源 AI 生 3D 模型,三张照片即可生成 3D 模型
苹果联合南京大学等机构发布 Matrix3D 模型,采用统一架构和遮蔽学习策略,仅需三张照片即可生成高质量 3D 场景模型,并已开源;
Matrix3D 采用了一种统一架构,将图像、相机参数(例如拍摄角度和焦距)以及深度数据作为输入,在一个统一的模型中处理,完成整个 3D 重建流程。这样的设计不仅大幅简化了工作流程,还显著提升了重建的准确性。
Matrix3D 在训练过程中采用了「遮蔽学习」(masked learning)策略,这种方法与早期基于 Transformer 的人工智能系统类似,正是这些技术为 ChatGPT 等模型的诞生奠定了基础。
研究人员在训练过程中会随机隐藏部分输入数据,从而迫使模型学习如何补全缺失的信息。这种方法的最大优势是,即使在数据不完整或数据量较少的情况下,也能实现有效训练。(@ 三次方 AIRX、@ 腾讯研究院)
1、豆包 AI 智能体耳机 Ola Friend 升级 支持唤醒英语外教智能体 Owen
5 月 19 日,字节跳动豆包发文宣布,由其出品的「Ola Friend」AI 智能体耳机迎来升级,耳机可以直接唤醒豆包 App 英语外教智能体 Owen。
Ola Friend 将通用大模型 AI 交互(端到端语音大模型)引入耳机场景,实现了「边听边说、随时打断」和「连续多轮对话」等拟人化交互体验。据介绍,Owen 具备英文对话、英文领读、双语点评等功能,拥有电影对白、填字游戏等多元练习方式,同时做到了更接近与英语母语者交流的体验。例如,在游览博物馆或艺术馆时,它可以充当导游角色,解答关于展品或艺术品的问题,并延展相关话题。
目前,Ola Friend 耳机用户可在豆包 App 内,打开「豆包智能体」并勾选「英文外教 Owen」后,直接唤醒 Owen 进行体验。(@APPSO、@ 新智讯)
2、NotebookLM 推出移动应用版本,支持 AI 互动、跨应用分享和离线下载
谷歌的 NotebookLM 移动端 5 月 20 日正式上线 App Store,其中包含了 AI 音频概览(Audio Overview)功能。
现在移动端支持如下新功能:
离线收听音频概览:可以下载音频概览以供离线播放。此外,无论是否离线,您都可以在后台播放音频。
一键添加资料:只需在浏览网站、PDF 或 YouTube 视频时点击分享图标,选择 NotebookLM,即可将其添加为新来源,无需复制粘贴。
互动音频体验:在网络连接的情况下,点击「加入」即可与 AI 主持人实时交流,提问题、寻求解释或改变话题方向。还可以随意聊天或请主持人讲笑话,让学习过程更加轻松有趣。(@NotebookLM\@X)
3、Bluejay:为 AI 语音智能体设计的模拟客户测试平台
Bluejay 是一款专为 AI 语音智能体设计的模拟客户测试平台。它通过创建逼真的虚拟客户,帮助您在实际部署前全面测试 AI 智能体,监控运行中的潜在问题,并提供专业的评估和改进建议。
主要特性包括:
超逼真的客户模拟: Bluejay 可以生成定制的数字人资源,用于测试语音智能体的每一次交互。这些数字人支持多种语言和口音,并模拟包括背景噪音、语调、表达方式、情感和语音标点在内的真实情境,确保测试的全面性。
生产环境可观测性: Bluejay 提供强大的可观测性,不仅可以在上线前检查 AI 智能体的运行状况,还能够在实际运行环境中发现并分析问题根源,并给出修复建议,帮助您快速解决问题。
基于研究的评估: Bluejay 能够理解智能体的目标,并基于此评估其完成度。同时,它还会提供诸如延迟、冗余、幻觉、工具调用、中断、情感分析等关键指标的详细分析,帮助您全面了解智能体的性能表现。
4、flowith Neo :支持无限步骤 · 无限上下文 · 无限工具的 AI Agent
日前,flowith 团队正式公布了其最新 AI Agent 工具「flowith Neo」。据官方介绍,flowith Neo 是世界首个可以支持无限步骤 · 无限上下文 · 无限工具的 AI Agent。
在公布的基准测试中,flowith Neo 在 GAIA 基准测试中超越了 OpenAI Deep Research、Manus 两款热门 Agent。
体验上,flowith Neo 会根据任务进程实时更新 planner,支持定时、延期任务,可 7×24h 工作,可执行长达一周、一个月的任务。
同时,flowith Neo 输入/输出长度可无限。Flowith 认为,支持无限上下文是 Agent 进化为 AGI 的必经之路。(@APPSO)
1、Inbox Zero:基于 Vapi 构建的语音电子邮件应用,解放司机双手
来自 X 上的@Vapi_AI :你可以在开车时清理收件箱!
1、作者赫拉利:AI 与人类最大的区别是意识
日前,罗振宇与著名历史学家、畅销书作者尤瓦尔·赫拉利进行了一场精彩对话,其中赫拉利在文中谈及了 AI 在历史长河的发展中,会对人类社会造成怎么样的影响。
当被问及「2025 年这个时间点,会有什么「故事」发生」时,赫拉利指出,人类正在经历一次由 AI 这一「非人类智能」创造的故事,甚至塑造了部分文化和生活环境,并且没有人能准确预估 AI 在未来能改变成什么样,人类的发展后果如何。
赫拉利提到十年前,AlphaGO 横空出世,通过围棋这一竞技让人类真正意识到,人类的想象力受限于大脑的生理结构,数千年来只探索了围棋所有可能性中的一小部分,AI 则开辟了全新的路径。
虽然 AI 能开辟新路径,但赫拉利也强调,AI 与人类的本质区别还在于「意识」。赫拉利提到,AI 目前能在智力超越人类,但在「意识」情感上,AI 还是只能模仿。而人类的意识源自于感受能力:我们通过痛苦、快乐、爱去认知事物,目前的 AI 则无法做到这一点。
赫拉利也表示,人类生命的价值恰恰在于感受:「我们不知道未来 AI 是否会发展出意识,但现在它们只能模仿情感。」(@APPSO)
更多 Voice Agent 学习笔记:
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻