开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、200B 参数击败满血 DeepSeek-R1,字节豆包推理模型 Seed-Thinking-v1.5 要来了

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测,这就是字节豆包目前正在使用的深度思考模型。

Seed-Thinking-v1.5 是一款通过深度思考提升推理能力的模型,在多个权威基准测试中展现出卓越性能。在具体评测中,该模型在 AIME 2024 测试中获得 86.7 分,Codeforces 评测达到 55.0 分,GPQA 测试达到 77.3 分,充分证明了其在 STEM(科学、技术、工程和数学)领域以及编程方面的出色推理能力。

除推理任务外,该方法在不同领域都表现出显著的泛化能力。例如,在非推理任务中,其胜率比 DeepSeek R1 高出 8%,这表明了其更广泛的应用潜力。

从技术架构看,Seed-Thinking-v1.5 采用了混合专家模型(Mixture-of-Experts,MoE)设计,总参数量为 200B,实际激活参数仅为 20B,相比同等性能的其他最先进推理模型,规模相对紧凑高效。

为全面评估模型的泛化推理能力,团队开发了 BeyondAIME 和 Codeforces 两个内部基准测试,这些测试工具将向公众开放,以促进相关领域的未来研究与发展。(@ 机器之心)

2、ChatGPT 终于发布长期记忆功能,开启个人 Agent 时代

今天凌晨,OpenAI 对 ChatGPT 功能进行了大更新,新增长期记忆功能,可以记住你过去所有的聊天记录,会根据你的兴趣、偏好提供更个性化的回答。

这对于写小说、金融分析、教育等领域帮助巨大。如果你不喜欢这个功能,也可以随时关闭。

例如,你之前和 ChatGPT 聊天时,多次询问了关于科幻小说的写作技巧,还提到自己喜欢硬科幻风格以及喜欢阿西莫夫的作品。

当你再让 ChatGPT 帮你写一篇科幻小说的开头时,由于它参考了之前的聊天记录,给出的开头就会更偏向硬科幻风格,并且会融入一些类似阿西莫夫作品中那种科学理论与情节结合的手法,而不是随意给出一个通用的科幻小说开头。

OpenAI 联合创始人兼总裁 Greg Brockman 对新功能评价非常高,认为这将开启个人 Agent 时代。

从今天开始,ChatGPT 长记忆功能将向除欧洲经济区、英国、瑞士、挪威、冰岛和列支敦士登之外的所有 ChatGPT Plus 和 Pro 用户推出。Team、Enterprise 和 Edu 用户将在几周后获得使用权限。(@ AIGC 开放社区)

3、OpenAI 开源 BrowseComp,重塑 Agent 浏览器评测

今天凌晨,OpenAI 开源了专门用于智能体浏览器功能的测试基准——BrowseComp。

这个测试基准非常有难度,连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6% 和 0.9% 几乎为 0,即便使用带浏览器功能的 GPT-4o 也只有 1.9%。

但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

BrowseComp 简单介绍

BrowseComp 全称为 Browsing Competition,包含了 1266 个很有挑战性问题的数据集,涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。

这些问题的难度在于,需要在庞大的互联网空间中搜索,并将这些潜在答案与问题中提出的复杂约束条件相匹配。

例如,下面这个问题就能很好体现 BrowseComp 的难度。

关于足球比赛的问题,要求智能体找出在 1990 年至 1994 年期间,哪两支足球队在一场比赛中由巴西裁判执法,共出现四张黄牌(每队两张),其中三张不是在上半场发出的,并且有四次换人,其中一次是在比赛前 25 分钟因伤换人。

答案是爱尔兰对罗马尼亚。(@ AIGC 开放社区)

4、商汤「日日新 V6」发布,最强多模态推理融入「百姓之日用」

4 月 10 日,商汤科技在上海、深圳等地同步发布 「日日新 SenseNova V6」 大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。

「日日新 V6」主要提升如下:

国内首个支持 10 分钟 中长视频深度解析 的大模型,对标 Gemini 2.5 Turbo 达到同类型最强。

如今,凭借单一模型就可以完成文本、多模态等各类任务。

看看 BenchMark 的成绩:

现实生活中小额理赔的材料审核往往需要 3-7 天的时间,而交给 AI 只需要 1 分钟,还通过长思维链能力,自我梳理好材料逻辑冲突的地方。基于超过 200B 高质量多模态长思维链数据,商汤通过多智能体协作进行长思维链合成和验证,「日日新 V6」形成了突出的多模态推理能力,可以支持合成最长 64K 的多模态长思维链 ,支持模型长时间思考能力。(@ 商汤科技 SenseTime)

02 有亮点的产品

1、三星新款「球球」机器人将接入 Gemini AI

据彭博社记者 Mark Gurman 报道,三星与 Google 将会合作推出 Ballie 家庭机器人,Ballie 不仅自带投影仪功能,Google 还将赋予其 AI 能力。三星于 2020 年首次展示了旗下 Ballie 机器人。该款机器人拥有一个黄色圆形外壳,如同《星球大战》里面的 BB-8 机器人。Ballie 配备了一对轮子,能够与扫地机器人一样在家中各个地方移动。但此前 Ballie 的发布日期多次跳票,而这次 Gurman 透露,Ballie 将会在今年夏天正式发布,与消费者见面。报道中提到,三星与 Google 今年合作推出的 Ballie 将会是一个全新版本,新版本 Ballie 将搭载 Google Gemini AI 模型进行推理、理解用户的指令,并通过 AI 进行处理摄像头所捕捉到的视觉数据,从而实现全屋自主导航。

Ballie 还将结合三星的 AI 模型,实现混合式 AI 运算。三星执行副总裁、下一代 AI 技术负责人 Jay Kim 在采访中透露了 Ballie 的愿景:让 AI 成为用户的朋友以及收获真正的陪伴」。Kim 还表示,之所以选择 Google 来一同打造 Ballie,是因为未来多个搭载 Google 旗下系统的设备,将会组合起来成为一个生态。值得一提的是,Google 曾在三月份推出 Gemini Robotics 机器人 AI 模型,在谈及合作时,Google Cloud CEO Thomas Kurian 表示,与三星的合作还有很多调整和优化需要进行,并且补充道「三星的设备具有多模态能力」。(@ APPSO)

2、Google 最强 AI 芯片登场,发布「文字转音乐模型」Lyria

近日,Google Cloud 大会上,Google 第七代 TPU「Ironwood」正式亮相,其为 Google 迄今为止性能最强、可扩展性最高的定制 AI 加速器,也是首款专为推理设计的加速器。相较于 Google 第一代 TPU,Ironwood 推理性能猛涨 3600 倍,能耗效率提升 29 倍;而与上一代 Trillium 相比,Ironwood 在能耗效率上也实现了 2 倍的提升。硬件方面:

同日,Google 还公布了多个项目、技术更新:

值得一提的是,A2A 协议是对 Anthropic 提出的 MCP 模型上下文协议的补充,Google 还在昨日宣布,旗下 Gemini 模型也将支持 MCP 协议。据悉,模型上下文协议(Model Context Protocol,MCP)是由 Anthropic 推出的开源协议,旨在实现大语言模型与外部数据源和工具的集成,用来在大模型和数据源之间建立安全双向的连接。另外,Google 的 AI 编码助手「Gemini Code Assist」已经在预览版中提供了 Agent(智能体)能力。Google 在大会上宣布,Code Assist 中的智能体可以执行多个步骤并完成复杂的编程任务。(@ APPSO)

3、LiveKit 获 4500 万美元 B 轮融资,同步发布 Agent 1.0

实时音视频开源平台 LiveKit 宣布完成 4500 万美元 B 轮融资,由 Altimeter 领投,Redpoint Ventures 和 Hanabi Capital 参投。同时,LiveKit 还发布了全新 Agent 1.0 版本,进一步提升实时互动体验。

LiveKit 提供实时音视频传输的开源软件和云服务,已服务于超过 500 家付费客户及 10 万名开发者,并为 25% 的美国 911 紧急呼叫提供技术支持。这家成立于 2021 年的公司由两位资深工程师创办,目前员工规模约 50 人,正处于快速扩张期。LiveKit 去年的年化收入已突破 1000 万美元。

Agent 1.0 特性:

4、Voicenotes Pages:随时随地录制和发布个人博客和播客

Voicenotes Pages 让你轻松发布你的想法和故事。它就像拥有一个简化版的博客或播客:只需录制内容,点击发布,就能获得一个精美的页面,让听众可以收听、订阅和提问互动。

功能亮点

03 有态度的观点

1、百川智能 CEO:AI 时代,为生命建模型,为人类造医生

在百川智能成立两周年当日(4 月 10 日),CEO 王小川发布公开信,回顾了公司两年的历程,并宣布了公司未来的走向。王小川信中指出,百川对技术突破与产业方向的预见,都开始被一一证实:

技术方面,语言是智能的中轴,语言 AI 的突破代表着强人工智能时代的到来,再有判断强化学习带来的慢思考,是第二次范式突破。王小川还预测,「Coding(编码)」将带来第三次也是终极的范式突破。

产业方面,王小川坚信医疗健康是智能时代最大的应用之一,提出了「医疗的中轴是医生」并实践打造 AI 医生。王小川强调,「为生命建模型、为人类造医生,是百川的使命。」其表示,大模型智能体能提供无限的 AI 医生供给,与真人医生协作实现「双医模式」,并让每位患者都拥有专属的 AI 医生,并长期陪伴记录个体数据。最后王小川还表示,「为生命建模型,为人类造医生,这是一个值得骄傲的使命。」据了解,百川大模型已在 AI 医疗领域有了不少行动:2024 年布局 AI 全科、AI 儿科和数字标识物;2025 年初发布医疗增强推理模型 Baichuan-M1,AI 全科医生在海淀区试点,和北儿联合发布「福棠·百川儿科大模型」,AI 儿科医生在北京儿童医院正式上岗。(@ APPSO)

04 Real-Time AI Demo

1、Vibe 写作:内置文档编辑器的语音智能体

来自 X 上的@anant:让写文档像对话一样流畅,语音将成为你的新键盘。

(@ anant@X)

更多 Voice Agent 学习笔记:

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流