AI测试 Sam Altman :无处不在的 AI 伴侣是理想产品形态;MiniMax Agent:一键直出图文音并茂作品丨日报

RTE开发者社区 · 2025年06月19日 · 336 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、腾讯开源 AI 歌唱模型 LeVo,支持双轨生成

LeVo 由腾讯 AI 实验室打造,借助语言模型(LM)架构,融合 LeLM 与音乐编解码器,使其能够并行地生成混合音轨或双轨音轨。根据最新发布的评测数据,LeVo 在歌词对齐能力方面,相较 Suno4.5 取得了 0.21 分的领先优势。

LeVo 具备一项极具革命性的功能——零样本音色克隆。这项创新技术仅需 3 秒音频片段,便能精准捕捉并复制目标音色,无论是微妙的音调变化、丰富的情感表达,还是独特的韵律特征,都能一一还原。

与传统 AI 音乐生成模型相比,LeVo 在功能上实现了重大突破,其支持双轨生成模式,能够分别生成人声和伴奏音轨。

在音质表现上,LeVo 已接近 Suno4.5 所代表的行业标准。它在音乐性、人声与伴奏和谐度以及音质(MOS 评分)等多个关键指标上均表现出色。尽管在歌曲结构清晰度方面,LeVo 仍稍逊于 Suno4.5 和 Mureka-O1,但通过多偏好对齐方法的优化,LeVo 确保了音乐在各种风格和应用场景下都能保持高保真效果。

腾讯方面表示,LeVo 将以开源的形式面向全球发布。

项目地址:https://levo-demo.github.io/(@One ThingAI Lab)

2、电器巨头松下 OmniFlow:支持多种模态之间的任意到任意生成任务

全球著名电器巨头松下开发了多模态大模型 OmniFlow,能够高效处理包括文本到图像、文本到音频、音频到图像等多种模态之间的任意到任意生成任务。

OmniFlow 采用了模块化设计理念,允许模型的各个组件进行独立预训练。在实际应用中,不同的组件可以针对特定的模态或任务进行优化训练。

在文本到音频生成任务的实验中,实验结果表明,OmniFlow 生成的音频在语音相似度方面表现出色,能够准确地将输入文本转换为与预期语音特征相符的音频内容。生成音频的质量评分也较高,音频清晰、流畅,没有明显的噪音或失真现象。(@AIGC 开放社区)

3、MiniMax 推出视频模型「Hailuo 02」,(拥有极限物理表现),排名全球第二,超越 Google Veo 3

6 月 18 日,MiniMax 稀宇科技正式发布旗下视频生成模型「Hailuo 02」。

官方介绍,Hailuo 02 能够生成 1080p 原生视频,并拥有极限物理表现。MiniMax 方面表示,通过邀请测试的艺术家们发现,类似体操这种高度复杂的场景,Hailuo 02 是目前全球唯一一个可以做到的模型。

据悉,Hailuo 02 采用名为「Noise-aware Compute Redistribution(NCR)」核心架构。在同等的参数量级下,新架构使 MiniMax 团队的训练和推理效率提升了 2.5 倍。最终团队把模型的总参数量扩大到了上一版模型的 3 倍。

性能表现上,Hailuo 02 在 Artificial Analysis Video Arena 上排名全球第二,超越 Google Veo 3、快手可灵 2.0、Runway Gen 4 等视频生成模型。

目前,Hailuo 02 已上架海螺视频的 Web、App 以及 MiniMax 的开放平台 API,提供 768p-6s、768p-10s 和 1080p-6s 三个版本。 (@APPSO)

02 有亮点的产品

1、通用智能体 MiniMax Agent:支持视频、音频、图片理解和生成

6 月 19 日,MiniMax 推出为解决长期复杂任务而构建的通用智能 Agent:MiniMax Agent。

MiniMax Agent 可以通过网页端体验,19 美元(折合人民币约 136.6 元)/月订阅用户每月大约可完成 15 个任务,69 美元(折合人民币约 496.1 元)/月用户每月大约可完成 60 个任务。MiniMax 会为新用户免费提供 1000 积分。

MiniMax Agent 可以实现从专家级的多步骤规划到灵活的任务分解和端到端执行。

MiniMax Agent 的亮点在于编程和工具使用、多模态理解与生成、无缝 MCP 集成。其具体设计和要求如下:编程:其包含更多组件和复杂跳转逻辑;能够模拟用户操作做非常全面的测试,不交付有 bug 的网页;重视界面设计的交互视觉效果和用户体验。

多模态:除了支持长文本文件,也支持视频、音频、图片等的全面理解;内置生图、音频生成、视频生成等能力,一键直出图文音并茂的作品。

MCP 扩展:内置 MiniMax MCP,多模态输出能力强大且实惠;集成常用 Github/Gitlab、Slack、Figma 等 MCP,提高上下文,延展用户办公生活各种任务场景。

体验地址:https://agent.minimax.io/(@ 智东西)

2、AI 配音与语音生成平台 Noiz AI:一键多语种配音,自动翻译并保持原声风格

Noiz AI 是一款 AI 配音与语音生成产品,只需要 3-10 秒的录音,就能快速生成声音模型。还可以通过 Noiz AI 大模型能力生成多种语言,并最大限度保留原音质。

亮点

  • 支持一键文本转语音,多种音色风格可选;

  • 3-10 秒音频即可克隆任意声音,快速生成专属语音模型;

  • 一键多语种配音,自动翻译并保持原声风格;

  • 语音自然流畅,适合故事、解说、ASMR、冥想等多场景;

  • 支持英文、中文、日语、法语等主流语言;

  • 在线操作,界面简洁,适合内容创作者和团队使用。

体验链接:https://noiz.ai/landing(@elliotchen100\@X

03 有态度的观点

1、OpenAI CEO 回应 Meta 挖人:他们不擅长创新

昨日,OpenAI CEO Sam Altman 在和他弟弟 Jack Altman 的对谈中,分享了关于他对未来 5 到 10 年 AI 发展的预测与见解,并对 Meta 挖人做出回应。

Altman 表示,目前推理能力的提升让 AI 逐渐能够像博士一样进行专业领域的复杂思考,而科学家们已经通过 AI 提高了研究效率。因此 Altman 认为,在未来五到十年,AI 将具备更多自主科研能力,甚至能发现新的科学。

对于近期有消息称,Meta 开出 1 亿美元的薪酬挖 OpenAI、Google 等 AI 公司的人才。对此,Altman 回应称,「开心的是,到目前为止,OpenAI 最优秀的那些人都没有接受他们的邀约。」

Altman 表示,自己尊重他们这种有侵略性的态度,以及不断尝试新方法的精神。同时他还预测,如果本次挖人行动不成功,Meta 之后还会继续尝试。

同时,Altman 也对 Meta 这种「公司重心偏移」的行为表示否定,直言「不认为这种方式能建立起一个好的文化。」Altman 强调,「Meta 有很多尊重的地方,但并不认为他们是一家擅长创新的公司。」

对此,Altman 还不忘把 OpenAI 与 Meta 进行对比:「我觉得 OpenAI 的特别之处在于:我们成功建立了一种以创新为核心的文化。」(@APPSO)

2、Sam Altman :无处不在的「AI 伴侣」是 OpenAI 的理想产品形态

6 月 18 日,Sam Altman 在和他弟弟 Jack Altman 的对谈中分享了关于他对未来 5 到 10 年 AI 发展的预测与见解,谈话内容涵盖 AI 科研、人形机器人、超级智能、OpenAI 设备、供应链等话题,并对 Meta 挖人做了回应。

他们在对话谈到:无处不在的「AI 伴侣」是 OpenAI 的理想产品形态。

Altman 描绘了 OpenAI 为消费者构建的终极产品形态——「AI 伴侣」。与传统计算设备相比,未来的 AI 可能通过更直观的设备形式融入人们的生活。

Sam Altman: 我觉得现在使用的这些计算设备形态目前并不是最优解。

消费者最终会希望我们提供的是一种「 AI 伴侣」(目前还找不到更合适的词)。

它存在于「虚拟空间」中,通过各种界面和产品,在多个方面为他们提供帮助。它会逐渐了解你、了解你的目标、你想实现什么、你的各种信息。

有时候你会在 ChatGPT 里打字跟它互动,有时候你可能在用一个更偏娱乐的版本,有时候你会在其他集成了我们平台的服务中使用它,有时候你会通过我们新的设备来接入它。

无论在哪种形式下,这个「存在」都会帮你完成你想完成的事:有时候它会主动推送内容给你,有时候你主动提问,有时候它只是默默观察、学习,以便将来做得更好。

最终,它带来的感觉就是:「这是我的……」我们现在还没有一个完全准确的词来形容它,「AI 伴侣」只是目前最接近的说法。

如果这个设备能随时跟着你走、带有各种传感器,真正理解你周围发生了什么,并能持续跟踪各种信息,同时你又能非常轻松地通过一句简单指令让它执行复杂操作——那你就可以想象出完全不同的设备形态了。(@APPSO)

更多 Voice Agent 学习笔记:

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册