AI测试 Sam Altman ：无处不在的 AI 伴侣是理想产品形态；MiniMax Agent：一键直出图文音并茂作品丨日报

RTE开发者社区 · 2025年06月19日 · 3408 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、腾讯开源 AI 歌唱模型 LeVo，支持双轨生成

LeVo 由腾讯 AI 实验室打造，借助语言模型（LM）架构，融合 LeLM 与音乐编解码器，使其能够并行地生成混合音轨或双轨音轨。根据最新发布的评测数据，LeVo 在歌词对齐能力方面，相较 Suno4.5 取得了 0.21 分的领先优势。

LeVo 具备一项极具革命性的功能——零样本音色克隆。这项创新技术仅需 3 秒音频片段，便能精准捕捉并复制目标音色，无论是微妙的音调变化、丰富的情感表达，还是独特的韵律特征，都能一一还原。

与传统 AI 音乐生成模型相比，LeVo 在功能上实现了重大突破，其支持双轨生成模式，能够分别生成人声和伴奏音轨。

在音质表现上，LeVo 已接近 Suno4.5 所代表的行业标准。它在音乐性、人声与伴奏和谐度以及音质（MOS 评分）等多个关键指标上均表现出色。尽管在歌曲结构清晰度方面，LeVo 仍稍逊于 Suno4.5 和 Mureka-O1，但通过多偏好对齐方法的优化，LeVo 确保了音乐在各种风格和应用场景下都能保持高保真效果。

腾讯方面表示，LeVo 将以开源的形式面向全球发布。

项目地址：https://levo-demo.github.io/（@One ThingAI Lab）

2、电器巨头松下 OmniFlow：支持多种模态之间的任意到任意生成任务

全球著名电器巨头松下开发了多模态大模型 OmniFlow，能够高效处理包括文本到图像、文本到音频、音频到图像等多种模态之间的任意到任意生成任务。

OmniFlow 采用了模块化设计理念，允许模型的各个组件进行独立预训练。在实际应用中，不同的组件可以针对特定的模态或任务进行优化训练。

在文本到音频生成任务的实验中，实验结果表明，OmniFlow 生成的音频在语音相似度方面表现出色，能够准确地将输入文本转换为与预期语音特征相符的音频内容。生成音频的质量评分也较高，音频清晰、流畅，没有明显的噪音或失真现象。（@AIGC 开放社区）

3、MiniMax 推出视频模型「Hailuo 02」，（拥有极限物理表现），排名全球第二，超越 Google Veo 3

6 月 18 日，MiniMax 稀宇科技正式发布旗下视频生成模型「Hailuo 02」。

官方介绍，Hailuo 02 能够生成 1080p 原生视频，并拥有极限物理表现。MiniMax 方面表示，通过邀请测试的艺术家们发现，类似体操这种高度复杂的场景，Hailuo 02 是目前全球唯一一个可以做到的模型。

据悉，Hailuo 02 采用名为「Noise-aware Compute Redistribution（NCR）」核心架构。在同等的参数量级下，新架构使 MiniMax 团队的训练和推理效率提升了 2.5 倍。最终团队把模型的总参数量扩大到了上一版模型的 3 倍。

性能表现上，Hailuo 02 在 Artificial Analysis Video Arena 上排名全球第二，超越 Google Veo 3、快手可灵 2.0、Runway Gen 4 等视频生成模型。

目前，Hailuo 02 已上架海螺视频的 Web、App 以及 MiniMax 的开放平台 API，提供 768p-6s、768p-10s 和 1080p-6s 三个版本。 (@APPSO)

02 有亮点的产品

1、通用智能体 MiniMax Agent：支持视频、音频、图片理解和生成

6 月 19 日，MiniMax 推出为解决长期复杂任务而构建的通用智能 Agent：MiniMax Agent。

MiniMax Agent 可以通过网页端体验，19 美元（折合人民币约 136.6 元）/月订阅用户每月大约可完成 15 个任务，69 美元（折合人民币约 496.1 元）/月用户每月大约可完成 60 个任务。MiniMax 会为新用户免费提供 1000 积分。

MiniMax Agent 可以实现从专家级的多步骤规划到灵活的任务分解和端到端执行。

MiniMax Agent 的亮点在于编程和工具使用、多模态理解与生成、无缝 MCP 集成。其具体设计和要求如下：编程：其包含更多组件和复杂跳转逻辑；能够模拟用户操作做非常全面的测试，不交付有 bug 的网页；重视界面设计的交互视觉效果和用户体验。

多模态：除了支持长文本文件，也支持视频、音频、图片等的全面理解；内置生图、音频生成、视频生成等能力，一键直出图文音并茂的作品。

MCP 扩展：内置 MiniMax MCP，多模态输出能力强大且实惠；集成常用 Github/Gitlab、Slack、Figma 等 MCP，提高上下文，延展用户办公生活各种任务场景。

体验地址：https://agent.minimax.io/（@ 智东西）

2、AI 配音与语音生成平台 Noiz AI：一键多语种配音，自动翻译并保持原声风格

Noiz AI 是一款 AI 配音与语音生成产品，只需要 3-10 秒的录音，就能快速生成声音模型。还可以通过 Noiz AI 大模型能力生成多种语言，并最大限度保留原音质。

亮点

支持一键文本转语音，多种音色风格可选；
3-10 秒音频即可克隆任意声音，快速生成专属语音模型；
一键多语种配音，自动翻译并保持原声风格；
语音自然流畅，适合故事、解说、ASMR、冥想等多场景；
支持英文、中文、日语、法语等主流语言；
在线操作，界面简洁，适合内容创作者和团队使用。

体验链接：https://noiz.ai/landing（@elliotchen100\@X）

03 有态度的观点

1、OpenAI CEO 回应 Meta 挖人：他们不擅长创新

昨日，OpenAI CEO Sam Altman 在和他弟弟 Jack Altman 的对谈中，分享了关于他对未来 5 到 10 年 AI 发展的预测与见解，并对 Meta 挖人做出回应。

Altman 表示，目前推理能力的提升让 AI 逐渐能够像博士一样进行专业领域的复杂思考，而科学家们已经通过 AI 提高了研究效率。因此 Altman 认为，在未来五到十年，AI 将具备更多自主科研能力，甚至能发现新的科学。

对于近期有消息称，Meta 开出 1 亿美元的薪酬挖 OpenAI、Google 等 AI 公司的人才。对此，Altman 回应称，「开心的是，到目前为止，OpenAI 最优秀的那些人都没有接受他们的邀约。」

Altman 表示，自己尊重他们这种有侵略性的态度，以及不断尝试新方法的精神。同时他还预测，如果本次挖人行动不成功，Meta 之后还会继续尝试。

同时，Altman 也对 Meta 这种「公司重心偏移」的行为表示否定，直言「不认为这种方式能建立起一个好的文化。」Altman 强调，「Meta 有很多尊重的地方，但并不认为他们是一家擅长创新的公司。」

对此，Altman 还不忘把 OpenAI 与 Meta 进行对比：「我觉得 OpenAI 的特别之处在于：我们成功建立了一种以创新为核心的文化。」(@APPSO)

2、Sam Altman ：无处不在的「AI 伴侣」是 OpenAI 的理想产品形态

6 月 18 日，Sam Altman 在和他弟弟 Jack Altman 的对谈中分享了关于他对未来 5 到 10 年 AI 发展的预测与见解，谈话内容涵盖 AI 科研、人形机器人、超级智能、OpenAI 设备、供应链等话题，并对 Meta 挖人做了回应。

他们在对话谈到：无处不在的「AI 伴侣」是 OpenAI 的理想产品形态。

Altman 描绘了 OpenAI 为消费者构建的终极产品形态——「AI 伴侣」。与传统计算设备相比，未来的 AI 可能通过更直观的设备形式融入人们的生活。

Sam Altman: 我觉得现在使用的这些计算设备形态目前并不是最优解。

消费者最终会希望我们提供的是一种「 AI 伴侣」（目前还找不到更合适的词）。

它存在于「虚拟空间」中，通过各种界面和产品，在多个方面为他们提供帮助。它会逐渐了解你、了解你的目标、你想实现什么、你的各种信息。

有时候你会在 ChatGPT 里打字跟它互动，有时候你可能在用一个更偏娱乐的版本，有时候你会在其他集成了我们平台的服务中使用它，有时候你会通过我们新的设备来接入它。

无论在哪种形式下，这个「存在」都会帮你完成你想完成的事：有时候它会主动推送内容给你，有时候你主动提问，有时候它只是默默观察、学习，以便将来做得更好。

最终，它带来的感觉就是：「这是我的……」我们现在还没有一个完全准确的词来形容它，「AI 伴侣」只是目前最接近的说法。

如果这个设备能随时跟着你走、带有各种传感器，真正理解你周围发生了什么，并能持续跟踪各种信息，同时你又能非常轻松地通过一句简单指令让它执行复杂操作——那你就可以想象出完全不同的设备形态了。(@APPSO)

更多 Voice Agent 学习笔记：

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨 Voice Agent 学习笔记

a16z 合伙人：语音交互将成为 AI 应用公司最强大的突破口之一，巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。