开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@ 鲍勃

01 有话题的技术

1、200B 参数击败满血 DeepSeek-R1，字节豆包推理模型 Seed-Thinking-v1.5 要来了

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到，这是一个拥有 200B 总参数的 MoE 模型，每次工作时会激活其中 20B 参数。其表现非常惊艳，在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测，这就是字节豆包目前正在使用的深度思考模型。

Seed-Thinking-v1.5 是一款通过深度思考提升推理能力的模型，在多个权威基准测试中展现出卓越性能。在具体评测中，该模型在 AIME 2024 测试中获得 86.7 分，Codeforces 评测达到 55.0 分，GPQA 测试达到 77.3 分，充分证明了其在 STEM（科学、技术、工程和数学）领域以及编程方面的出色推理能力。

除推理任务外，该方法在不同领域都表现出显著的泛化能力。例如，在非推理任务中，其胜率比 DeepSeek R1 高出 8%，这表明了其更广泛的应用潜力。

从技术架构看，Seed-Thinking-v1.5 采用了混合专家模型（Mixture-of-Experts，MoE）设计，总参数量为 200B，实际激活参数仅为 20B，相比同等性能的其他最先进推理模型，规模相对紧凑高效。

为全面评估模型的泛化推理能力，团队开发了 BeyondAIME 和 Codeforces 两个内部基准测试，这些测试工具将向公众开放，以促进相关领域的未来研究与发展。（@ 机器之心）

2、ChatGPT 终于发布长期记忆功能，开启个人 Agent 时代

今天凌晨，OpenAI 对 ChatGPT 功能进行了大更新，新增长期记忆功能，可以记住你过去所有的聊天记录，会根据你的兴趣、偏好提供更个性化的回答。

这对于写小说、金融分析、教育等领域帮助巨大。如果你不喜欢这个功能，也可以随时关闭。

例如，你之前和 ChatGPT 聊天时，多次询问了关于科幻小说的写作技巧，还提到自己喜欢硬科幻风格以及喜欢阿西莫夫的作品。

当你再让 ChatGPT 帮你写一篇科幻小说的开头时，由于它参考了之前的聊天记录，给出的开头就会更偏向硬科幻风格，并且会融入一些类似阿西莫夫作品中那种科学理论与情节结合的手法，而不是随意给出一个通用的科幻小说开头。

OpenAI 联合创始人兼总裁 Greg Brockman 对新功能评价非常高，认为这将开启个人 Agent 时代。

从今天开始，ChatGPT 长记忆功能将向除欧洲经济区、英国、瑞士、挪威、冰岛和列支敦士登之外的所有 ChatGPT Plus 和 Pro 用户推出。Team、Enterprise 和 Edu 用户将在几周后获得使用权限。（@ AIGC 开放社区）

3、OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测

今天凌晨，OpenAI 开源了专门用于智能体浏览器功能的测试基准——BrowseComp。

这个测试基准非常有难度，连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6% 和 0.9% 几乎为 0，即便使用带浏览器功能的 GPT-4o 也只有 1.9%。

但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%，在自主搜索、信息整合、准确性校准方面非常优秀。

BrowseComp 简单介绍

BrowseComp 全称为 Browsing Competition，包含了 1266 个很有挑战性问题的数据集，涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。

这些问题的难度在于，需要在庞大的互联网空间中搜索，并将这些潜在答案与问题中提出的复杂约束条件相匹配。

例如，下面这个问题就能很好体现 BrowseComp 的难度。

关于足球比赛的问题，要求智能体找出在 1990 年至 1994 年期间，哪两支足球队在一场比赛中由巴西裁判执法，共出现四张黄牌（每队两张），其中三张不是在上半场发出的，并且有四次换人，其中一次是在比赛前 25 分钟因伤换人。

答案是爱尔兰对罗马尼亚。（@ AIGC 开放社区）

4、商汤「日日新 V6」发布，最强多模态推理融入「百姓之日用」

4 月 10 日，商汤科技在上海、深圳等地同步发布 「日日新 SenseNova V6」 大模型体系，通过多模态长思维链训练、全局记忆、强化学习的技术突破，形成领先的多模态推理能力，并突破成本边界。

「日日新 V6」主要提升如下：

模型能力显著提升：在长思维链、推理、数理、全局记忆方面拥有显著优势，多模态推理能力国内第一 ，对标 GPT-o1，数据分析能力大幅领先 GPT-4o；
高效能与 低成本 完美结合：多模态训练整体效率对齐语言训练 实现业内最低 ，推理成本亦实现业界最低；
轻量级的 全模态交互模型升级 ：SenseNova V6 Omni 拥有国内最强的多模态交互能力；

国内首个支持 10 分钟 中长视频深度解析 的大模型，对标 Gemini 2.5 Turbo 达到同类型最强。

如今，凭借单一模型就可以完成文本、多模态等各类任务。

看看 BenchMark 的成绩：

【核心指标】纯文本任务综合性能优秀，比肩国际一线模型；多模态性能领先，各方面性能突出；纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。

【强推理能力】日日新融合模型从 5.5 到 V6 / V6 Reasoner，推理能力显著提升，多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。

现实生活中小额理赔的材料审核往往需要 3-7 天的时间，而交给 AI 只需要 1 分钟，还通过长思维链能力，自我梳理好材料逻辑冲突的地方。基于超过 200B 高质量多模态长思维链数据，商汤通过多智能体协作进行长思维链合成和验证，「日日新 V6」形成了突出的多模态推理能力，可以支持合成最长 64K 的多模态长思维链 ，支持模型长时间思考能力。（@ 商汤科技 SenseTime）

02 有亮点的产品

1、三星新款「球球」机器人将接入 Gemini AI

据彭博社记者 Mark Gurman 报道，三星与 Google 将会合作推出 Ballie 家庭机器人，Ballie 不仅自带投影仪功能，Google 还将赋予其 AI 能力。三星于 2020 年首次展示了旗下 Ballie 机器人。该款机器人拥有一个黄色圆形外壳，如同《星球大战》里面的 BB-8 机器人。Ballie 配备了一对轮子，能够与扫地机器人一样在家中各个地方移动。但此前 Ballie 的发布日期多次跳票，而这次 Gurman 透露，Ballie 将会在今年夏天正式发布，与消费者见面。报道中提到，三星与 Google 今年合作推出的 Ballie 将会是一个全新版本，新版本 Ballie 将搭载 Google Gemini AI 模型进行推理、理解用户的指令，并通过 AI 进行处理摄像头所捕捉到的视觉数据，从而实现全屋自主导航。

Ballie 还将结合三星的 AI 模型，实现混合式 AI 运算。三星执行副总裁、下一代 AI 技术负责人 Jay Kim 在采访中透露了 Ballie 的愿景：让 AI 成为用户的朋友以及收获真正的陪伴」。Kim 还表示，之所以选择 Google 来一同打造 Ballie，是因为未来多个搭载 Google 旗下系统的设备，将会组合起来成为一个生态。值得一提的是，Google 曾在三月份推出 Gemini Robotics 机器人 AI 模型，在谈及合作时，Google Cloud CEO Thomas Kurian 表示，与三星的合作还有很多调整和优化需要进行，并且补充道「三星的设备具有多模态能力」。(@ APPSO)

2、Google 最强 AI 芯片登场，发布「文字转音乐模型」Lyria

近日，Google Cloud 大会上，Google 第七代 TPU「Ironwood」正式亮相，其为 Google 迄今为止性能最强、可扩展性最高的定制 AI 加速器，也是首款专为推理设计的加速器。相较于 Google 第一代 TPU，Ironwood 推理性能猛涨 3600 倍，能耗效率提升 29 倍；而与上一代 Trillium 相比，Ironwood 在能耗效率上也实现了 2 倍的提升。硬件方面：

Ironwood 搭载了高达 192GB 的显存，在带宽方面提升到至 7.2 Tbps，双向带宽也增加到 1.2
Tbps，让数据、芯片之间的传输速度更快，提升大规模分布式训练和推理的效率。
Ironwood 最高规格「9216 版本」算力总计可达到 42.5 Exaflop（每个独立芯片峰值算力为 4614
TFLOPs），届时 Ironwood 的算力是世界上最大的超级计算机 El Capitan 的 24 倍以上。

同日，Google 还公布了多个项目、技术更新：

Vertex AI 加入「文字转音乐模型」Lyria，成为唯一一个涵盖所有模态（视频、图像、语音和音乐）的生成式媒体模型的平台；
Google AI 视频生成模型 Veo 2 新增视频修复、画面拓展、镜头构图指导等功能；
文字转图像模型 Imagen 3 提升画面细节表现，拥有更丰富的光照以及减少干扰性伪影，同时还改善了图像修复（擦除）能力。Google 还推出了 Agent（智能体）的全新开放协议「Agent2Agent（A2A）」，其旨在帮助多个智能体之间能够相互协作，并通过开放协议相互通信，从而提升智能体的实用性。

值得一提的是，A2A 协议是对 Anthropic 提出的 MCP 模型上下文协议的补充，Google 还在昨日宣布，旗下 Gemini 模型也将支持 MCP 协议。据悉，模型上下文协议（Model Context Protocol，MCP）是由 Anthropic 推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。另外，Google 的 AI 编码助手「Gemini Code Assist」已经在预览版中提供了 Agent（智能体）能力。Google 在大会上宣布，Code Assist 中的智能体可以执行多个步骤并完成复杂的编程任务。(@ APPSO)

3、LiveKit 获 4500 万美元 B 轮融资，同步发布 Agent 1.0

实时音视频开源平台 LiveKit 宣布完成 4500 万美元 B 轮融资，由 Altimeter 领投，Redpoint Ventures 和 Hanabi Capital 参投。同时，LiveKit 还发布了全新 Agent 1.0 版本，进一步提升实时互动体验。

LiveKit 提供实时音视频传输的开源软件和云服务，已服务于超过 500 家付费客户及 10 万名开发者，并为 25% 的美国 911 紧急呼叫提供技术支持。这家成立于 2021 年的公司由两位资深工程师创办，目前员工规模约 50 人，正处于快速扩张期。LiveKit 去年的年化收入已突破 1000 万美元。

Agent 1.0 特性：

多智能体协同引擎
全新的轮次检测模型（13 种语言，CPU 推理时间 < 25 毫秒）
强大的电话技术栈（已支持 25% 的美国 911 调度，并持续增长）
云原生代理部署平台，助力边缘运行（TechCrunch&LiveKit）

4、Voicenotes Pages：随时随地录制和发布个人博客和播客

Voicenotes Pages 让你轻松发布你的想法和故事。它就像拥有一个简化版的博客或播客：只需录制内容，点击发布，就能获得一个精美的页面，让听众可以收听、订阅和提问互动。

功能亮点

随时随地录音： 捕捉最真实的灵感火花——无需繁琐的编辑或重录，无论使用手机、手表、网页，甚至 WhatsApp 都能轻松录制。
一键发布： 从想法到触达听众，只需轻轻一点——发布内容从未如此简单快捷。
通知订阅者： 每次发布新内容，订阅者都会立即收到电子邮件通知，确保他们不会错过任何精彩。
高效管理： 为不同的想法、项目或角色创建独立的页面，所有内容都井井有条地保存在一个账户下。
AI 赋能体验： 为听众提供领先的 AI 体验。他们可以向 AI 提问，阅读完整转录，以及探索更多智能功能。
同步苹果 & Spotify： 将您的 Voicenotes 页面作为播客发布到 Apple Podcasts 和 Spotify，扩大您的影响力。(@ Product Hunt)

03 有态度的观点

1、百川智能 CEO：AI 时代，为生命建模型，为人类造医生

在百川智能成立两周年当日（4 月 10 日），CEO 王小川发布公开信，回顾了公司两年的历程，并宣布了公司未来的走向。王小川信中指出，百川对技术突破与产业方向的预见，都开始被一一证实：

技术方面，语言是智能的中轴，语言 AI 的突破代表着强人工智能时代的到来，再有判断强化学习带来的慢思考，是第二次范式突破。王小川还预测，「Coding（编码）」将带来第三次也是终极的范式突破。

产业方面，王小川坚信医疗健康是智能时代最大的应用之一，提出了「医疗的中轴是医生」并实践打造 AI 医生。王小川强调，「为生命建模型、为人类造医生，是百川的使命。」其表示，大模型智能体能提供无限的 AI 医生供给，与真人医生协作实现「双医模式」，并让每位患者都拥有专属的 AI 医生，并长期陪伴记录个体数据。最后王小川还表示，「为生命建模型，为人类造医生，这是一个值得骄傲的使命。」据了解，百川大模型已在 AI 医疗领域有了不少行动：2024 年布局 AI 全科、AI 儿科和数字标识物；2025 年初发布医疗增强推理模型 Baichuan-M1，AI 全科医生在海淀区试点，和北儿联合发布「福棠·百川儿科大模型」，AI 儿科医生在北京儿童医院正式上岗。(@ APPSO)