开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑::@ 赵怡岭、@qqq、@ 鲍勃

01.有话题的技术

1、DolphinGemma:谷歌 AI 如何解码海豚交流

DolphinGemma 是一款用于海豚声音研究的基础 AI 模型,预计今夏开源。

该模型接收音频输入,并生成与海豚声音相似的新序列。DolphinGemma 通过处理自然海豚声音的序列,识别模式、结构,并预测序列中后续声音,其工作方式与大型语言模型预测人类语言中的下一个单词或 token 类似。

由 Google 研究团队开发的 DolphinGemma 采用了 SoundStream 神经音频编码技术,通过先进的声学特征提取方法高效地表征海豚发声。该模型基于优化的序列建模架构,并在@dolphinproject 提供的海量野外声学数据集上完成训练,参数规模约为 4 亿。 值得一提的是,该模型可以直接部署在野外研究场景中的 Pixel 移动设备上,实现实时处理。(@ Google AI Developers@X)

2、OpenAI 正式发布 GPT-4.1

OpenAI 于2025年4月15日凌晨推出了三款 GPT-4.1 系列模型,号称当前最强大的编程模型之一。直接先来看三款模型的各自特点:

目前,GPT-4.1 只能通过 API 调用,不会直接出现在 ChatGPT 里。但好消息是,ChatGPT 的 GPT-4o 版本已经悄悄加入了 GPT-4.1 的部分功能,未来还会增加更多。此外,GPT‑4.5 Preview 将于2025年7月14日下线。开发 API 的核心模型也将逐步替换成 GPT-4.1。(@ APPSO)

3、AI 大模型首家 IPO,智谱开源多个模型

4 月 15 日,智谱在其官方微信公众号宣布,将开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已通过全新平台 Z.ai 免费开放体验,并已同步上线智谱 MaaS 平台。

其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒(MaaS 平台 bigmodel.cn),目前国内商业模型中速度最快。此外,其价格仅为 DeepSeek-R1 的 1/30。

同时,智谱启用全新域名 Z.ai,目前该平台整合了 32B 基座、推理、沉思三类 GLM 模型,后续将作为智谱最新模型的交互体验入口。

本次开源的所有模型均采用宽松的 MIT 许可协议。这意味着可以免费用于商业用途、自由分发,为开发者提供了极大的使用和开发自由度。(@ 智谱)

02.有亮点的产品

1、Cekura:语音和聊天 AI 智能体的自动化测试与监控

Cekura 是一个 AI 语音和聊天机器人自动化测试与可观察性平台。品牌方和 AI 联系中心借助 Cekura 在预生产环境中运行模拟对话并自动化 QA,实现高达六位数的美元成本节约。

测试重点:

2、Anthropic 测试 Claude 语音模式:支持多声音、文件上传及英语聊天

Anthropic 正在 Claude(iOS 版)中测试语音模式,提供 3 种不同声音选项,并支持文件上传功能,但目前仅限英文对话。(@ TestingCatalog News@X)

3、腾讯云大模型知识引擎上线 MCP 插件

4 月 14 日,腾讯云宣布大模型知识引擎升级支持 MCP 协议,用户在搭建应用时,可以通过大模型知识引擎调用平台精选的 MCP 插件或插入自定义的 MCP 插件。目前,知识引擎平台已经精选了多款 MCP Server,包括腾讯云 EdgeOne Pages、腾讯位置服务、Airbnb、Figma、Fetch 等,涵盖各类专业信息获取、网页部署和预览、网页解析获取等场景。精选 MCP 插件之外,用户也可以按照 MCP 协议配置已经部署的 MCP SSE 服务,在应用中灵活调用。

大模型知识引擎为企业和开发者提供了标准模式、工作流模式和 Agent 模式等三种开发方式,用户可以在工作流和 Agent 这两种模式中快捷使用 MCP Server:

据了解,MCP(Model Context Protocol,模型上下文协议)是专为大语言模型(LLM)应用设计的开放协议,旨在实现 LLM 与外部数据源、工具的无缝集成。该协议于 2024 年 11 月由 Anthropic 发布。(@ APPSO)

03.有态度的观点

1、清华教授:AI 质量与用户的提问取向呈正相关

近日,清华大学文科资深教授谢维和在《光明日报》发表文章,探讨了文科与 AI 技术发展的相关联。

谢维和教授表示,AI 的发展极大改变了人们的生活、工作、思维方式,也在不断改变学术界的研究模式与学术逻辑。但有时候 AI 往往不能回答出用户所想要的答案。对此,谢维和教授认为 AI 的回答质量与使用者的价值取向、认知偏好、情感态度与文化修养有关。

对于上述的情况,谢维和教授进一步表示,这反映了人类智能与人工智能之间的复杂关系,特别是使用者文化素养的差异对人工智能与大模型效能的影响与制约,体现了人工智能或大模型的发展对文化的依赖及内在关联。

此外,谢维和教授还认为,在充分重视 AI 科学性的同时,强调向 AI 提问的人文取向是非常必要的。它反映了人们的生活态度与个性特征,体现了沟通与表达的能力,展示了求知欲与好奇心,以及终极关怀的价值观等等。

谢维和教授指出,问题的指向不仅是工具的实用性价值,而最根本的是人性,是真理、是意义、是目标。这种提问的人文取向不仅能够为人工智能与大模型赋能,而且是引导人工智能与各种大模型健康规范发展的重要基础。(@ APPSO)

更多 Voice Agent 学习笔记:

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


↙↙↙阅读原文可查看相关链接,并与作者交流