AI测试 谷歌搜索推出 AI 代打电话功能;Hume AI 声音克隆支持说话风格模仿丨日报

RTE开发者社区 · 2025年07月18日 · 465 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Suno AI 4.5+ 更新:人声替换/伴奏翻转/歌单灵感三大功能

音乐生成 AI 领跑者 Suno 刚刚发布了 4.5+ 版本更新,带来了三项功能:

  • 人声替换(Swap Vocals):用户现可轻松将歌曲中的原唱人声替换为其他声音,无论是自己的录音、AI 生成的人声还是其他创作者的演唱,皆可无缝替换,为混音和翻唱打开全新可能。

  • 伴奏反转(Flip Instrumentals):新增的智能伴奏编辑功能支持用户快速调整、重新编排原有伴奏结构,甚至完全重构节奏和风格,实现更高层次的创作自由。

  • 从播放列表生成灵感(Spark a Song from Any Playlist):通过分析用户喜爱的播放列表,新功能可智能提取风格元素,生成具有相似氛围或节奏的原创作品,让创作真正从「听」开始。

体验链接:https://suno.com/home

Suno 官方 Twitter 更新公告:https://x.com/SunoMusic/status/1945884363805061537(@ 三花 AI、@imxiaohu\@X

2、Decart AI 发布 MirageLSD:号称零延迟的实时视频生成模型

MirageLSD 是 Decart AI 发布的首个 Live-Stream Diffusion(实时流式扩散,简称 LSD)AI 视频模型,能够实现无限、实时的视频生成。可将任意视频流实时转换为全新的视觉风格,即可将任意直播的视频实时转换成其他各种风格。它可以把正在看的任何视频(比如摄像头画面、视频聊天、打游戏、看电影)实时转换成一个完全不同的世界。

运行帧率 24 FPS,官方宣称延迟低至 40ms(不过没说明具体硬件配置),相比以往模型,MirageLSD 提升了 16 倍的响应速度。

体验链接:https://mirage.decart.ai/

Decart AI 官方 MirageLSD 技术报告: https://about.decart.ai/publications/mirag(@ 三花 AI、@imxiaohu\@X

3、Adobe 推出全新 AI 影视制作工具:精准匹配音效与视频

Adobe 发布全新生成式 AI 工具,包含 Generate Sound Effects 音效生成功能及 Firefly 视频生成控制工具。

音效工具较谷歌 Veo 3 对音频生成控制更强。其界面类似视频编辑时间轴,用户可以将自己创作的音效与上传的视频片段精准匹配。通过视频同步录制与文字描述生成四类环境音效,支持马蹄声等各类效果音;例如,用户可以播放一段马匹在道路上行走的视频,同时录制与马蹄步伐同步的「哒哒」声,并附上「马蹄踏在混凝土上」的文字描述,该工具就会生成四种音效供用户选择。

除了音效创作工具外,Adobe 还为 Firefly 文本到视频生成器引入了新的高级控制功能,进一步提升了视频生成的灵活性和精准度。

Composition Reference 功能允许用户上传一段视频作为参考,Firefly 将在生成视频时模仿该参考视频的画面构图。这一功能使得创作者能够更轻松地实现特定的画面效果,而无需反复输入文字描述。Keyframe Cropping 功能则允许用户裁剪并上传视频的第一帧和最后一帧,Firefly 将根据这些关键帧生成中间的视频内容。

Adobe 还为 Firefly 视频生成器新增了一系列风格预设,包括动漫、矢量艺术、黏土动画等多种视觉风格,创作者可以快速选择并应用这些风格。不过,这些风格预设目前仅支持 Adobe 自家的 Firefly 视频 AI 模型。尽管在实际演示中,部分风格(如「黏土动画」)的效果还有待提升,但 Adobe 正在持续改进,并计划在未来支持更多第三方 AI 模型。(@ 依次努科技、@IT 之家)

4、NVIDIA 新模型登顶 OpenASR 榜单,语音转录和语言理解统一模型, CC-BY 许可

7 月 17 日,英伟达 AI 发布 Canary-Qwen-2.5B:开创性 ASR-LLM 混合模型,刷新 OpenASR 排行榜。凭借 5.63% 的词错率(WER)刷新了 Hugging Face OpenASR 排行榜。同时,这款模型还以开放源代码和 CC-BY 商业许可的形式发布。

Canary-Qwen-2.5B 以创新的混合架构为核心,将语音转录和语言理解统一于一个模型中。这一设计突破传统 ASR 管道将转录与后续处理分离的界限,使得诸如语音直接生成摘要、问答等复杂下游任务得以从音频输入端到端完成。此外,模型内部的模块化「适配器」机制支持灵活分配计算任务,使 Canary 编码器和 Qwen 解码器可以独立运行,这种设计大大增强了多模态任务的处理能力。

性能测试中,Canary-Qwen-2.5B 以 5.63% 的极低 WER 超越了所有参赛模型。该模型的训练数据集包括 23.4 万小时的多样化英语语音,涵盖不同口音、领域和语境,从而实现对噪声、对话及领域特定音频的优良泛化能力。训练过程基于英伟达的 NeMo 框架完成,开源的训练方案允许开发者对模型进行二次优化或在特定领域创建定制化版本。此外,通过「适配器」机制,研究人员能够无缝替换编码器或解码器。

由于采用了高开放性的 CC-BY 许可,企业可以灵活部署该模型以支持多种实际应用,包括:

  • 企业语音转录服务

  • 音频数据知识提取

  • 实时会议记录与摘要生成

  • 语音指令驱动的 AI 助手

  • 合规性文档生成(如医疗和法律领域)

相关链接:https://huggingface.co/spaces/nvidia/canary-qwen-2.5b(@AI 之星网、@reach_vb\@X

02 有亮点的产品

1、OpenAI 发布 ChatGPT Agent

7 月 18 日凌晨,OpenAI 正式发布 ChatGPT Agent 功能。据悉,通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。

凌晨发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道:

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

ChatGPT Agent 的亮点如下:

  • 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;

  • 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;

  • 在多项基准测试中表现领先,综合性能位居行业前列,多个测试结果超越了 OpenAI 此前的模型;

  • Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额;

用户始终掌控,支持实时干预与协作,支持以下人性化操作:

  • 任务随时中断;

  • 可主动输入、修改目标;

  • 自动保存上下文,断点继续;

  • 手机 APP 支持完成通知提醒;

  • 主动回访用户获取关键信息,保证结果对齐目标。

值得一提的是,用户不仅可以在桌面端启动 ChatGPT 的 Agent 模式,在手机端也同样适用。(@APPSO@imxiaohu\@X)

2、Mistral Le Chat 推出深度研究、语音模式等多项新功能

法国 AI 公司 Mistral AI 对其聊天机器人 Le Chat 进行了一系列重大功能更新,使其在功能上更接近 OpenAI 和 Google 的同类产品。此次更新旨在提升产品的研究能力、交互直观性和上下文管理能力。

新功能「深度研究模式」(Deep Research mode)将 Le Chat 转变为一个协同研究助理。该功能由 Mistral 的工具增强型 Deep Research Agent 驱动。

「语音模式」(Voice mode)允许用户通过语音与 Le Chat 交互,由 Mistral 新推出的低延迟语音识别模型 Voxtral 提供支持。同时,Le Chat 现已具备原生多语言推理能力,由其推理模型 Magistral 驱动,支持在不同语言间进行流畅的对话和思考。但目前 Le Chat 仅支持语音转文字的输入,该功能并非实时语音对话。

为了更好地组织对话,新增的「项目」(Projects)功能允许用户将相关的聊天、文件和想法分组到独立的、上下文丰富的文件夹中。每个项目可以保存自己的默认设置和库。此外,Le Chat 还引入了与 Black Forest Labs 合作开发的「高级图像编辑」功能,用户可以通过简单的文本提示对 AI 生成的图像进行编辑。

所有新功能已在 Le Chat 网页版及移动应用中上线。其中,「项目」功能对免费用户开放,而自定义指令和项目共享功能则标注为「即将推出」。

相关链接:https://mistral.ai/news/le-chat-dives-deep(@ 橘鸭 Juya、@ 机器之心)

3、谷歌搜索推出 AI 代打电话功能,目前功能在美国上线

谷歌搜索推出三大 AI 新功能,包括集成 Gemini 2.5 Pro 模型、深度搜索(Deep Search),以及最受关注的 AI 代打电话服务,目前美国用户已逐步上线,未来将全球推广。

谷歌向 AI Pro 与 Ultra 订户推送 Gemini 2.5 Pro 模型,支持在搜索中处理复杂推理、数学、编程等任务。

深度搜索功能可一键完成数百次查询,几分钟生成带引用的深度报告,适用于工作、学习等深入研究场景。

AI 代打电话功能能根据用户需求自动匹配商家并预约服务,商家可自行开关该功能,避免被过度打扰。比如搜索「附近宠物美容」,谷歌搜索里的 AI 会自动拨号获取价格和预约时间。

相关链接:https://blog.google/products/search/deep-search-business-calling-google-search/(@ 新智元、@ 英豪 AI 实验室)

4、Hume AI 不仅支持模仿声音,还能模仿说话风格

7 月 18 日,Hume AI 现在不仅支持模仿声音,还能模仿说话风格。该技术由 Hume 的 TTS 和全新语音到语音模型 EVI 3 提供,同时 EVI 3 也于今日发布。

Hume 的 EVI 3 现已通过 API 或 http://demo.hume.ai 官网提供。用户可以使用 Hume 的语言生成,也可以使用其他的外部 LLMs,如 Claude 4、Gemini 2.5 和 Kimi K2,这些都可以与 EVI 3 原生生成的快速响应无缝融合。( @hume_ai\@X@testingcatalog\@X)

5、Windsurf 发布 Wave 11 版本,增加了语音输入功能

Windsurf 于 7 月 18 日凌晨发布了其最新版本 Wave 11,带来了一系列突破性功能,旨在显著提升用户与 AI 的交互、协作效率以及企业级应用体验。

  • 语音输入功能:Wave 11 引入了全新的语音输入功能,用户现在可以直接通过语音表达需求,极大地简化了操作流程。目前该功能尚不支持语音回复。

  • 计划模式(Planning Mode):从 Wave 11 开始,计划模式将默认开启。在此模式下,AI 会首先与用户协作,将复杂的长期任务分解为可执行的步骤,然后按计划逐步执行,并随时向用户汇报进展。用户也可以随时手动关闭此模式。

为了更高效地管理复杂的 AI 交互,Wave 11 引入了两项关键创新:

  • 命名快照(Named Checkpoints):此功能允许用户在对话的关键节点创建「快照」,类似于游戏中的存档点。这意味着用户可以随时回溯到之前的对话状态,方便进行尝试、修改或回顾。

  • 引用对话(@-mentioning conversations):这项功能极大地增强了对话间的关联性。用户现在可以在新的对话中通过使用「@」符号引用之前的对话。例如,用户可以让 AI 在一个对话中帮助实现新功能,然后在新对话中引用该功能对话,并指示 AI 为其编写测试代码。

Cascade 在 Wave 11 中得到了显著增强,实现了与浏览器工具的深度集成:

  • 引用浏览器标签页:用户现在可以在对话中直接使用「@」符号引用浏览器中已打开的标签页内容。

  • 智能信息收集:Cascade 现在支持自动截取屏幕或获取网页的 DOM 树信息。这意味着 AI 可以智能地收集以往需要手动复制粘贴的浏览器错误信息、截图和 DOM 元素。

另外,新版本为 JetBrains 平台,带来了计划模式、工作流(Workflows)和基于文件的规则(file-based Rules)等重要功能。

除了上述主要更新,Wave 11 还包含了众多细节优化,以提供更流畅、更专业的用户体验:

  • 引用终端:用户现在可以在对话中通过「@」符号引用终端的内容,方便地将终端输出纳入 AI 的理解范围;

  • 自动继续:开启此设置后,如果 AI 的回答因长度限制而中断,它将自动继续生成后续内容,确保信息的完整性;

  • 企业级功能:针对企业客户,Wave 11 提供了更安全、更便捷的认证方式,以及全局代码忽略规则(Global 。codeiumignore),以满足企业级应用的安全和管理需求。(windsurf_ai\@X、AI 智见录)

03 有态度的观点

1、人类击败 AI 编程夺冠

7 月 17 日,在东京举行的 AtCoder 2025 世界巡回赛中,一位人类选手 Psyho 以较大差距暂时击败了 OpenAI 提交的自动化程序 OpenAIAHC,拿下榜首。

消息一出,连 OpenAI CEO Sam Altman 都亲自转发了,并配文「干得好,Psyho!」

但需要注意的是,比赛的胜利或是暂时性的:OpenAIAHC 排在第二名紧追不舍,AI 参与编程竞赛的实力越来越强,从零调试的程序已经逼近人类顶尖选手。

今天的开发者,正在被 Claude Code、Gemini CLI、Cursor 等工具团团围住,不再是「用不用」的问题,而是「怎么用」。不过也有经验丰富的开发者分享使用 AI 工具的痛苦开发经历。

而美国 AI 安全机构 METR 近期公布了一项针对 Claude 3.5/3.7 的实测研究。他们找来了 16 名经验丰富的开源开发者,让他们在熟悉的项目中使用 Claude Code 辅助编程。结果却显示:

开发者使用 AI 后,完成任务的时间平均增加了 19%。

研究也给出了几个原因:

  • 写 prompt 很花时间,而且经常要改来改去;

  • Claude 给出的代码大多不能直接用,需要手动改逻辑、查 bug;

  • 你在「提示 - 等待 - 修改」的循环中,陷入了一种「被打断的状态」。( APPSO)

2、OpenAI o1 核心贡献者:AI 将成为第四种杠杆

近期,前 OpenAI 研究员 Hyung Won Chung 在离职消息曝光后,首次系统性地分享了他对 AI 的长期思考,塑造了一个新的想法:「AI 杠杆机制」。

在 Chung 看来,人工智能并不仅仅是一种工具,而是一种史无前例的「杠杆机制」——可以以极低的输入,撬动巨大的价值输出,从个人到文明层面,全面重塑创造力的来源。

Chung 将 AI 定义为继人力、资本、代码之后的「第四种杠杆」。这四种杠杆的共同点,是都能让有限的资源撬动无限的可能。但不同于前三者,AI 杠杆具有前所未有的组合性、可扩展性和自治性,甚至可以「自我复制」,这也让它成为历史上最强大、最不可预测的一种杠杆形式。

Chung 对 Agent(智能体)尤为关注。他认为,Agent 正是 AI 杠杆的原子单位,像细胞一样可繁殖、可互联,并天然具备复合杠杆的能力。一个 Agent 可以完成一名员工的任务,但十个 Agent,并不需要十份薪水,也不增加十倍协调成本。

另外,Chung 还提出了一个设问:「如果把整个人类文明看作一个系统,它的目标是什么?」他的答案是:持续发现新知识,也就是科学进步。

在他构想中,AI 不仅是个工具,更是连接人类知识尖峰的壳层。今天的科学知识被分布在不同领域、不同学者之间,彼此割裂,合作成本极高。而 AI 能将这些高维孤岛串联起来,像细菌的质粒一样,进行「知识的水平基因转移」。

视频链接:https://x.com/hwchung27/status/1945355238187393257(@APPSO

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册