AI测试 语音 AI 公司 Deepgram 发布 Saga,面向开发者的语音操作系统;OpenS2S:完全开源的共情语音大模型丨日报

RTE开发者社区 · July 17, 2025 · 198 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、紫东太初联合长城汽车开源 OpenS2S:完全透明开源的共情语音大模型

紫东太初团队与长城汽车 AI Lab 联合推出了完全开源的共情语音大模型 OpenS2S,旨在通过低成本、高效率的方式构建共情语音系统。

该模型不仅继承了团队在语音到文本共情模型 BLSP-Emo 上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S 提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。

OpenS2S 采用模块化设计,包含四大核心组件:

  • 音频编码器:基于 Qwen2-Audio 编码器,高效提取音频波形中的语义与非语言特征;

  • 指令遵循大语言模型(LLM):选用 Qwen3-8B-Instruct,发挥其强大的文本理解与处理能力,实现精准指令解析;

  • 流式语音解码器:借鉴 Minmo 与 LLaMA-Omni2,采用监督语义语音分词器将语音响应离散化为 token,随后通过自回归文本到语音模型生成连续语音 token,实现低延迟流式生成;

  • Token2Wav 解码器:将生成的语音 token 转换为最终语音波形,分块感知因果流匹配模型及 HiFi-GAN 声码器均采用 GLM-4-Voice 中的预训练组件,保证语音质量自然流畅。

最为重要的是,团队开源了构建 OpenS2S 所需的所有资源,包括:训练与微调数据集、数据构建代码、模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

代码地址:https://github.com/CASIA-LM/OpenS2S

模型地址:https://huggingface.co/CASIA-LM/OpenS2S(@ 量子位、@ 果比 AI)

2、MiniMax Agent 上线全栈开发功能

7 月 16 日,稀宇科技正式发布 MiniMax Agent 全栈开发功能。官方介绍,MiniMax Agent 全栈开发功能或是「全球首个在复杂全栈网站应用上高交付率的 Agent」。

据悉,MIniMax Agent 全栈开发功能支持 Supabase 后端托管、Stripe 支付功能、cron job 定时任务、长链接维持等能力,可开发需要 API、实时数据、下单支付、LLM 调用、定时任务、登录注册等功能的各类应用。

MiniMax Agent 全栈开发由「调研子 Agent」「全栈开发 Agent」「测试子 Agent」组成,能为用户提供「人人都可开发个性化的软件」的环境。

MiniMax 在研发过程中采用模块化 Agent 架构,其中包含 3 个核心子 Agent:

  • 调研子 Agent:该 Agent 可以分析目标应用需求,生成完整技术方案,可以通过官方文档检索 API 调用规范,还可以进行执行需求完整性验证;

  • 全栈开发 Agent:全栈开发 Agent 可以基于行业最佳实践生成健壮代码,实现前后端完整功能开发;

  • 测试子 Agent:测试子 Agent 可以执行接口级测试与修复,进行模块化应用测试与调试。

此外,MIniMax 还上新了 MCP builder 功能:只需一句话,用户可以开发任意想要的 MCP。完成后可在 MiniMax Agent 内直接复用,也可下载完整文件灵活使用。

相关链接:https://agent.minimax.io/(@APPSO、@ 智东西)

3、多模态智能体 PresentAgent:自动将文档转化为配有语音讲解和同步幻灯片的视频演示

来自澳大利亚人工智能研究所、利物浦大学、拉筹伯大学的团队联合提出的多模态智能体 PresentAgent,旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,实现一个完整集成的视频体验,模拟人类演讲者的信息传递方式。

它能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示,比如商业报告、技术手册、政策简报或学术论文等。

团队提出了一个模块化生成框架——PresentAgent,如图所示。

其流程包括:

  • 将输入文档语义分块(通过大纲规划);

  • 为每个语义块生成具有布局指导的幻灯片视觉内容;

  • 将关键信息重写为口语化解说文本;

  • 语音合成后,与幻灯片进行时间同步,最终生成一个结构良好、讲解清晰的视频演示。

该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理(2)结构化幻灯片生成(3)同步字幕创建(4)语音合成。

最终输出为一个结合幻灯片和同步讲解的演示视频。图 1 中紫色高亮部分表示生成过程中的关键中间输出。

团队在测试集上进行了验证,结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。

论文链接:https://arxiv.org/pdf/2507.04036

代码链接:https://github.com/AIGeeksGroup/PresentAgent(@ 量子位)

4、语音 AI 公司 Deepgram 发布 Saga,面向开发者的语音操作系统

Saga 是一款专为开发者设计的语音操作系统,旨在消除现代开发中频繁切换工具、寻找信息的「隐形税」,让开发者能够专注于构建,而非琐碎的操作。Saga 通过语音,将开发者的想法直接转化为行动,显著提升生产力。

语音优先的工作流程控制: 将自然语音转化为跨工具工作流执行,开发者不再需要手动操作和在不同应用间切换。只需简单口述,Saga 即可完成复杂任务。

智能提示生成: 开发者可以用模糊的想法表达需求,Saga 会将其转化为清晰明确的一次性提示,供 Cursor 等 AI 辅助工具使用,显著减少试错次数。例如,说出「构建一个对表情符号做出反应的 Slack 机器人」,Saga 即可生成精确的编码指令。

端到端工作流执行: 一句语音命令即可触发整个开发堆栈的协调操作,极大地简化了开发流程。例如,只需说「运行测试,提交更改,部署并更新团队」,Saga 便能自动完成所有步骤,无需手动干预。

实时文档记录: Saga 能够捕捉开发者的思考过程,将其转化为结构化文档、工单或 PR 描述,无需额外的记录工作,确保知识沉淀。

上下文工具集成: Saga 内嵌于现有开发工具中,开发者无需切换到独立的 AI 聊天窗口,答案和操作直接在工作界面显示。

自然代码生成: 开发者口述需求,如「帮我获取上周注册的前 10 名用户」,Saga 即可即时生成 SQL 或 JavaScript 代码片段,无需开发者自己编写或查找语法。

开发者生态友好: Saga 与开发者常用的工具(如 Cursor、Windsurf、Linear、Asana、Jira、Slack、Google Docs、Gmail、Google Sheets)无缝集成,无需改变现有工作习惯。

基于 MCP 的 AI 原生开发: 专为依赖 AI 代理、并将工作流程视为可编程操作系统的新一代技术用户设计,可轻松集成到现有技术栈。

相关链接:https://deepgram.com/product/saga(@Deepgram)

02 有亮点的产品

1、百度 AI 助手视频通话:支持多种方言识别

百度 AI 助手推出视频通话功能,用户可通过百度 APP 开启与 AI 助手的实时视频沟通。

在「生活探索」场景中,AI 助手借助百度识图能力快速回答用户疑问,同时支持个性追问;在穿衣搭配方面,说出场合需求或风格偏好,助手将会提供专业建议;在宠物行为分析上,结合宠物行为学为用户分析原因;在情感陪伴方面,成为用户的贴心倾诉对象。此外,AI 助手支持方言识别,提升使用体验。(@OneThingAI Lab、@ 百度搜索)

2、ChatGPT 录音模式:用户可通过语音直接与 AI 交互,支持实时记录和内容总结

OpenAI 的 ChatGPT 录音模式已向所有 Plus 用户全面推出,目前在 macOS 桌面应用程序中上线。用户可通过语音直接与 AI 交互,支持实时记录和内容总结。录音模式在会议记录、创意头脑风暴、语言翻译与学习等场景中表现出色,能快速将语音转化为结构化文本内容。

其背后是 OpenAI 在语音识别和自然语言处理领域的深厚积累,目前仅限 macOS 桌面端应用程序,未来可能扩展至 iOS 和 Android 平台。

相关链接:https://openai.com/chatgpt/mac/(@OneThingAI Lab)

3、视频创作智能体 CrePal :智能调度主流音、视频生成模型,支持图、音、视一体化的智能内容编排与统一调度

CrePal 并非单一模型工具,也不仅是多个平台的整合器,而是面向 AI 视频内容场景构建的智能 Agent。

CrePal 的核心能力在于智能调度主流视频生成模型。当用户输入创作目标与偏好,系统会基于调用成本、生成时长、画面质量、运动稳定性、训练数据分布等多个维度,自动计算最优组合方案,完成模型选择与参数配置。用户无需理解技术细节,也不必面对繁复的模型列表或记忆各平台的 prompt 语法差异。

只需通过自然语言表达需求,例如「帮我生成一则麦当劳中国区域的火锅广告,将麦当劳招牌融入火锅,20s 左右」,系统即可解析语义,并拆解为脚本生成、画面构建、音轨匹配、镜头调度等子任务,由系统自动完成模型调度与执行。

CrePal 构建了一套图、音、视一体化的智能内容编排与统一调度系统,覆盖从生成到呈现的全流程能力。在视频生成方面,它接入了包括 VEO、海螺、PixVerse、可灵等主流模型,支持图文混合场景生成、多人物动作控制、音乐风格切换等复杂任务,并通过 follow 指令进一步提升了对复杂指令链条的理解与执行能力。

图像生成方面,CrePal 整合了 Midjourney、GPT Image、Google Imagen 4、Flux 等领先模型,可满足稳定风格画面生成的需求;音频生成则融合了 Suno、11labs、火山引擎等服务,并支持以 Suno 生成风格化配乐,同时引入海量版权歌曲素材库,全面提升内容创作的自由度与表现力。(@ 有新 Newin)

4、aiOla 完成 2500 万美元 A2 轮融资,用于提升航空运营中的语音智能技术

aiOla 近日完成 2500 万美元 A2 轮融资,其中包括来自美联航风投部门 United Airlines Ventures 的战略投资,现在其累计融资总额达到 5800 万美元。

aiOla 通过 API 向开发者提供其语音 AI 平台,包含语音转文本、文本转语音和音频智能工具。其专注于将嘈杂、多语种及行业术语密集环境下的语音转化为结构化数据,为企业提供更高效的数据决策能力。

联合航空正在探索 aiOla 语音人工智能生态系统的多种情景应用,该系统支持 100+ 种语言,使员工能够在背景噪音或专业术语的情况下自然交流。

此外,Jargonic 生态系统在多说话者和噪音复杂环境中表现优于 OpenAI 和 ElevenLabs 等竞争对手。

aiOla 还表示,其专有的关键词检测模型 AdaKWS 在识别行业专业术语方面达到了 95% 的准确率,并能快速适应多样化的工作流程。

联合航空风险投资负责人 Andrew Chang 表示:「UAV 认为 aiOla 的技术在各个行业中都具有无限的应用潜力,因为它能够解决从语音中捕获信息的问题,并以快速且精准的方式将其转换为结构化数据,供其他机器学习和人工智能应用使用。」

aiOla 总裁兼联合创始人 Amir Haramaty 表示:「语音是唯一能够解决核心数据挑战——质量、数量和实时可见性——且不会干扰现有工作流程的界面。」

另外,aiOla 表示,语音人工智能市场正在显著增长,预计到 2024 年将扩大 25%,达到 54 亿美元。

报道链接:https://www.airport-technology.com/news/aiola-voice-ai-aviation-operations/?cf-view&cf-closed(@IT 桔子、@Airport Technology)

03 有态度的观点

1、黄仁勋:中国在 AI 领域一定非常成功

7 月 16 日,黄仁勋出席了第三届链博会并发表演讲。随后,据新浪科技报道,黄仁勋在当日下午就大家关切的多个问题进行了详细解答。

谈到中国 AI 走向时,黄仁勋表示「在人工智能领域,各国都有十分优秀的人才」,他提到,中国有很好的人才基础,因为有着重视科学和数学的文化传统,而且中国已经具备了扎实的计算机科学根基。

对此,黄仁勋认为,上述条件加上当下技术发展的时机正好,中国在人工智能领域已经做好了充分准备,同时在人工智能领域也一定会非常成功。

另据第一财经消息,黄仁勋在被问及 AI 训练时华为 AI 芯片能否取代英伟达,他称这只是时间问题。「我们已经做了 30 年,他们(华为)已经做了几年,而华为已经能告诉大家他们有多强大了。现在没有一个人比我付出更多精力来建造(AI 生态),我已经在极高的水平、以难以执行的规模(在做这件事),而华为已经能和我们相提并论。」

黄仁勋直言「任何轻视华为、轻视中国制造能力的人,都极其天真。这是一家实力强劲的公司。」他还强调,自己也会尽最大努力向华为学习。

对于机器人行业,黄仁勋则表示中国在机电一体化领域实力超群,还拥有庞大的制造业基础来「雇佣」这些机器人,因此他对中国机器人产业发展非常乐观。「就算小米或比亚迪未来推出惊艳的机器人产品,我也不会感到意外。」

黄仁勋还谈及了供应链:「中国的供应链极其复杂且先进,漫长的链条串联起众多不同的供应商、各种能力与技术。中国的供应链基础设施与生态系统同样高度发达且先进,技术水平领先。」

他指出,英伟达已经进入中国市场 30 年了。「我第一次来中国的时候,百度、阿里巴巴、腾讯、小米这些公司都还没成立。」

另外,黄仁勋还称自己很想买一辆小米汽车。其表示「小米现在是一个很棒的合作伙伴」「过去五年里,中国的电动汽车可能是最让世界惊讶的存在」。

同时他还提到了近日一同合照的小米创办人雷军,「从第一天起,我就看得出来,雷军将来一定会取得非凡的成功。」(@APPSO)

2、DeepMind CEO:与人类一样聪明的 AI 系统正在到来

日前,Google DeepMind CEO Demis Hassabis 接受《Wired》(连线)的采访,分享了自己对于「如何拥抱 AI 时代」的一些看法。

《Wired》指出,DeepMind 与 Demis 都在全力投入通用人工智能(AGI)。而对于 AGI 何时实现,Demis 则表示「 DeepMind 团队基本上朝着正确的方向前进」,并预测称,在未来五至十年内,人类大概率有 50% 的几率实现我们(人类)自己所定义的 AGI。

对于 AGI 的定义,Demis 则认为是「一个能够展现人类所有认知能力的系统」。同时 Demis 也指出,AGI 的发展速度是个未知数。「虽然有些微小的领先优势可能会带来巨大的技术鸿沟,但 AGI 将会是一个渐进式的转变。」Demis 强调,数字智能的影响需要一段时间才能真正影响许多现实世界的事物。

同时,采访也提到了时下热门话题——AI 会改变人类的哪些工作内容。对此,Demis 则以一个乐观的心态表示,虽无法确定是好是坏,但在未来几年,人类会拥有难以置信的强大工具,并极大程度地提升人类生产力。

Demis 还在采访中「科幻」了一下未来世界:一切顺利的话,人类会进入一个彻底丰富的黄金年代,AGI 可以解决世界上的根本问题,如治愈可怕的疾病,让人类获得更长的寿命,发现新的能源等等。若全能实现,那么将会是人类最大繁荣的时代,同时我们也能去往星辰,冲向银河系。Demis 认为,「这将会在 2030 年发生」。(@APPSO)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up