开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阿里通义开源网络智能体 WebSailor,登顶开源排行榜

7 月 7 日,阿里通义正式宣布开源网络智能体 WebSailor,并在发布后登顶智能体评测集 BrowseComp 的开源网络智能体榜单。

据介绍,WebSailor 具备强大的推理和检索能力,可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。

性能表现上,英文版和中文版 BrowseComp 评测集的实测结果显示,WebSailor 跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B 不仅在开源模型和 Agent 阵营里实现了断层领先,甚至超越了 DeepSeek R1、Grok-3 等闭源模型,仅次于闭源的 OpenAI DeepResearch。

值得一提的是,通义团队在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据 SailorFog-QA,并基于 Qwen 模型进行冷启动微调,让模型学到超越人类的复杂推理模式。同时在训练时,团队还提出了高效的强化学习算法 DUPO,将复杂 Agent 的强化学习训练速度提升了约 2–3 倍。

目前 WebSailor 的构建方案及部分数据集已在 Github 开源。

GitHub: https://github.com/Alibaba-NLP/WebAgent (@APPSO)

2、工业级开源记忆操作系统 MemOS,支持模型持续进化和自我更新

近日,记忆张量(上海)科技有限公司联合上海交通大学、中国人民大学、同济大学、浙江大学、中国电信等多家顶尖团队发布了 MemOS(Memory Operating System),一套面向大模型的工业级记忆操作系统。

与传统 RAG 或纯参数存储不同,MemOS 把「记忆」看作一种和算力同等重要的系统资源。它通过标准化的 MemCube 记忆单元,将明文、激活状态和参数记忆统一在同一个框架里进行调度、融合、归档和权限管理。简单来说,模型不再只是「看完即忘」,而是拥有了持续进化和自我更新的能力。

在技术实现层面,MemOS 借鉴了传统操作系统的分层架构设计,也融合了 Memory3(忆立方)大模型在记忆分层管理方面的核心机制。整个系统由 API 与应用接口层、记忆调度与管理层、记忆存储与基础设施层三大核心层次组成,构建了一套从用户交互到底层存储的全链路记忆管理闭环。

在 API 与应用接口层,MemOS 提供了标准化的 Memory API,开发者可以通过简单的接口实现记忆创建、删除、更新等操作,让大模型具备易于调用和扩展的持久记忆能力,支持多轮对话、长期任务和跨会话个性化等复杂应用场景。

在记忆调度与管理层,MemOS 提出了记忆调度(Memory Scheduling)的全新范式,支持基于上下文的「下一场景预测」(Next-Scene Prediction),可以在模型生成时提前加载潜在需要的记忆片段,显著降低响应延迟、提升推理效率。

项目官网:https://memos.openmem.net

项目论文:https://memos.openmem.net/paper_memos_v2

代码仓库:https://github.com/MemTensor/MemOS(@ 机器之心)

3、混元推出业界首个美术级 3D 生成大模型 Hunyuan3D-PolyGen

7 月 7 日,腾讯混元带来了业界首个美术级 3D 生成大模型 Hunyuan3D-PolyGen。

官方介绍,结合自研高压缩率表征 BPT 技术,混元 3D-PolyGen 可生成面数达上万面的复杂几何模型,布线精度更高,细节更丰富,同时支持三边面和四边面,满足不同专业管线需求。

基于上述特征,混元 3D 资产可无缝应用于 UGC 游戏资产生成,显著提升美术师建模效率。

效果对比上,混元 3D-PolyGen 在生成的稳定性、细节、布线质量等方面均优于目前 SOTA 模型。另外,在解决前面提到的面数和布线问题上,混元 3D-PolyGen 可根据几何结构自适应分配面数,可利用更低的面数实现更好的细节。

目前,该能力已上线腾讯混元 3D AI 创作引擎。体验地址:3d.hunyuan.tencent.com(@APPSO

02 有亮点的产品

1、Toki(原 Dola AI):通过自然语言与 AI 助手对话,轻松管理日程安排

Toki AI 的产品的核心理念是让用户能够通过自然语言与 AI 助手对话,轻松管理日程安排。之前叫 Dola,产品非常简单,简单说就是 AI 日历 +Reminders。

比方说在添加日历提醒这块,你可以直接通过语音一句话即可添加新的日历,不必自己手动打字和选择日期时间;也可以发文字甚至上传图片,之后 AI 在分析这些内容后自动添加日历的具体信息,比方说直接把你预定的机票发给它,让添加日历不再是一个需要单独去操作的一个事情。

其次就是 Reminder 提醒功能,这里它会直接给你打电话,一旦你某个预约的时间到了,它会用 AI 给你打电话来提醒,以防止错过时间,因此可以理解为就是一个 AI 版的苹果 Reminders。

除了单独的 App,还可以直接在 WhatsApp、苹果 Messages、Telegram 以及 Line 等聊天 App 里无缝实现所有这些功能。

产品链接(目前需要海外苹果账户):https://yestoki.com(@Zion 无代码)

2、空间智能落地高德地图,小高老师智能体开始内测

高德地图近日推出 AI 版本,核心为「小高老师智能体」,结合空间智能技术实现「思考 - 预判 - 行动」全链路智能。

用户可以通过在主页面点击对话按键说出需求,也可以点击界面底部的对话,进入对话列表选择小高老师后说出需求,如「北京三天亲子游」,智能体可通过语音或文字方式输出它实时生成的包含路线规划、景点推荐、天气穿搭建议的个性化方案,并一键调用导航无缝衔接行程。

AI 导航功能同步升级,通过超视距感知技术预测红绿灯状态、车道级车流及事故风险,提供全局最优路线和安全预警。

总结起来,小高老师看着和过去的 AI 助手很像,用户也是通过打字或语音和其交流,但小高老师提供的不仅是信息,而是根据用户所处的时间、地点,提供全面的生活建议,并且给出最符合当下时空信息的导航规划。

此外,智能体还能根据用户情绪调整交互内容,如加班后推荐舒缓音乐,打造有温度的出行伙伴。(@AI 智前沿、@ 量子位)

3、The Velvet Sundown: 使用 Suno 生成的 AI 乐队,在 Spotify 月听众突破 110 万

最近,一个名叫 The Velvet Sundown 的独立摇滚乐队,在 Spotify 一个月就有超过 47 万听众。

该乐队在 6 月上线两张专辑,但毫无社交媒体或官网信息,引发 Reddit 音乐人社区广泛质疑。

一位化名为 Andrew Frelon 的发言人兼「兼职」成员在接受《滚石》杂志采访时最终承认:乐队的一部分音乐就是用火爆全网的 AI 音乐生成平台 Suno 做的,使用了 Suno 的「Persona」功能,能创造出特定风格的 AI 歌手。

同时,相较于 Deezer 给 AI 生成的内容打上标签,Spotify 的 CEO 说他们不会禁止 AI 音乐。据 The Velvet Sundown 说,马上还要发新专辑,叫《Paper Sun Rebellion》,这已经是他们两个月里的第三张专辑了。

滚石原采访:https://www.rollingstone.com/music/music-features/velvet-sundown-ai-band-suno-1235377652/(@ 键盘世界、@ 浮士德 V)

4、哔哩哔哩(B 站)正加速推进其视频播客战略,内部代号为「代号 H」的 AI 创作工具同步研发

据 Tech 星球报道,哔哩哔哩(B 站)正加速推进其视频播客战略,试图用一种「能看」的播客重塑「能听」的世界。这一方向不仅被视为平台新的增长引擎,还伴随着内部代号为「代号 H」的 AI 创作工具同步研发。

所谓视频播客,即音频内容视频化。根据 B 站内部流出的一份《视频播客出圈计划营销合作规划》显示,B 站将发布一系列针对音频及文字创作者视频化转型的扶持政策。内部人士透露,「公司今年暑期将大力挖角播客创作者,我们觉得视频播客将是一个重要增量」。

据悉,B 站视频播客扶持政策主要包括三部分:流量的冷启动扶持、各大一线城市的免费录制场地以及视频播客专属的 AI 创作工具。

此外,B 站即将推出的 AI 创作工具,在内部的项目名称为「代号 H」,主要用于帮助播客创作者节省视频素材查找和剪辑工作,创作者输入内容,即可自动生成画面。该工具主打极致高效的内容转换,支持文字和音频输入,并能在 6 分钟内自动生成完整的视频播客内容。平台的内部目标是将生成时间压缩到 3 分钟以内。目前该工具已进入小范围定向测试阶段,首批创作者反馈「出乎意料地顺滑」。

「我们比较看好垂直领域和文字、音频作者转型这两部分」,该内部人士表示,目前视频播客类目已经出现了一些变现效率较高的垂直账号,如秘塔科技首席运营官「王一快」和资深律师「中二的大暄哥」两个垂类账号,排除商单收入,只通过充电(内容付费)和课堂的前台数据进行推算,年收入在 120 万左右。(@ 新智核、@Z Finance)

03 有态度的观点

1、OpenAI 联合创始人提出「细菌编程」

近期,OpenAI 联合创始人 Andej Karpathy 继「氛围编程」(vibe coding)、「上下文工程」(Context Engineering)之后,又创造了一个新词——「细菌式编程」(Bacterial code)。

据 Karpathy 的介绍,细菌编程拥有三个特点:代码块精简、模块化、自包含且易于复制粘贴。拥有上述三个特点后,代码社区就可以通过「水平基因转移」而蓬勃发展。

Karpathy 解释,细菌历经地球各种时期:从严寒到酷暑,从酸到碱,甚至外太空,但细菌几乎能够殖民生态圈的每一处。而细菌能够如此强大,靠的正是其基因组那套厉害的演化逻辑。Karpathy 认为,开发者也应该向细菌的生存方式学习。

在生物学中,为了减少能量消耗,细菌基因组里拥有了「自我精简机制」,Karpathy 认为「开发者们也应该有这样的意识」:写代码太容易、成本太低,导致大家开发十分随意,最后代码变得臃肿不堪,甚至脆弱且杂乱。

另外,Karpathy 也承认了「细菌编程」的局限性:无法构建复杂的生命体。相比之下,更高级的真核生物的基因组,宛如一个庞大、复杂,但高度耦合的单体仓库(Monorepo)。有了单体仓库,才能实现组织性和协调性。

对此,Karpathy 认为,人类在面对「细菌」和「真核生物」两种方式时,可以取长补短:在一个统一、拥有结构化的项目(Monorepo)中进行开发,但大框架下,要做到每一个功能、模块写得像细菌基因组一样——精简、独立、自包含,甚至拥有「复制粘贴」功能。(@APPSO)

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流