AI测试 DeepMind 开源实时音乐生成模型 Magenta Real-time;Martin:可语音对话的 AI 日程助理丨日报

RTE开发者社区 · 2025年06月23日 · 22 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、MultiTalk:音频驱动的多人对话视频生成框架

MultiTalk,一个用于音频驱动的多人对话视频生成的新框架。给定一个多流音频输入、一张参考图像和一个提示,MultiTalk 会生成一段包含与提示一致的互动视频,其唇部动作与音频保持一致。

技术亮点:

  • 逼真的对话:支持单人和多人生成;

  • 交互式角色控制 :通过提示引导虚拟人物;

  • 泛化表演:支持生成卡通人物和唱歌;

  • 分辨率灵活性:任意宽高比的 480p 和 720p 输出;

  • 长视频生成:支持生成最长 15 秒的视频。

GitHub:https://github.com/MeiGen-AI/MultiTalk(@ 黑神 AI 技术)

2、DeepMind 发布 Magenta Real-time :开源实时音乐生成模型

谷歌的 Magenta 团队推出了 Magenta RealTime(Magenta RT),这是一种开放权重的实时音乐生成模型。Magenta RT 根据 Apache 2.0 许可证发布,可在 GitHub 和 Hugging Face 上获取,它是首个支持具有动态、用户可控风格提示的实时推理的大规模音乐生成模型。

Magenta RT 在约 19 万小时的器乐库存音乐上进行训练。这个庞大且多样化的数据集确保了广泛的流派泛化能力和在各种音乐环境中的平滑适应能力。训练数据使用分层编解码器进行标记,这使得在不损失保真度的情况下实现紧凑表示。每个 2 秒的块不仅以用户指定的提示为条件,还以 10 秒的先前音频的滚动上下文为条件,从而实现平滑、连贯的进展。

Magenta RT 是一个基于 Transformer 的语言模型,在离散音频标记上进行训练。这些标记通过神经音频编解码器生成,该编解码器以 48kHz 的立体声保真度运行。该模型利用了一个 8 亿参数的 Transformer 架构,该架构针对以下方面进行了优化:

  • 以 2 秒音频片段进行流式生成

  • 具有 10 秒音频历史窗口的时间条件

  • 使用文本提示或参考音频的多模态风格控制

相关链接:https://huggingface.co/google/magenta-realtime(@ 图灵 AI 云、@ 三花 AI)

3、MiniMax Audio:一句话定制任意音色、情感,免费可用

MiniMax 发布其 MiniMax Week 的 MiniMax Audio——语音设计工具。该工具由 MiniMax 最新语音设计模型提供支持。

在 MiniMax Audio 界面,用户可在「Prompt」文本框中输入任意提示词,可生成任意声音、情感的语音,实现完全可定制,并支持多种语言。

用户可以通过自然语言来描述自己心中所想的音色,实现对多个维度的精准控制,甚至生成世界上不存在的音色。与 Speech 02 语音模型在链路上相配合,用户在文字转语音中可真正实现了「所需即所得」,以「任意语言 × 任意口音 × 任意音色」,实现可全自定义的无限组合。

点击生成按钮后,该功能会一次性生成 3 个符合要求但音色、语气、节奏略有不同的语音。用户选择自己满意的语音,即可进入语音注册页面,如果都不满意,也可以重新生成。

用户可免费使用 3 次该工具,想使用更多额度或将 MiniMax Audio 用于商业用途,则需付费订阅。

国内版:minimaxi.com/audio

海外版:minimax.io/audio(@ 智东西、@MiniMax 稀宇科技 )

4、月之暗面开源新版多模态模型,拥有更强的视频推理和理解能力

日前,月之暗面更新旗下开源多模态模型「Kimi-VL-A3B-Thinking」,发布最新 2506 版本。

官方表示,2506 版本中,模型能在消耗更少 token 的同时更加聪明,并且在多模态基准测试中达到了更高的准确率并且平均所需的思考长度减少 20%。

视觉理解能力上,新版模型能够「通过思考看得更清晰」。与上一版本专注于思考任务不同的是,2506 版本在常规视觉感知与理解任务上也达到了相同甚至更好的能力。

在视频表现上,2506 版本拥有更强的视频推理和理解能力,并且实现了更高分辨率的支持(支持单张图像 320 万总像素,为上一版本的 4 倍)。

性能表现上,2506 版本在多个项目中媲美比它更大尺寸的开源模型,如阿里的 Qwen2.5-VL-72B;甚至在部分场景中超越其他高性能模型。如 OpenAI 的 GPT-4o 和阿里的 Qwen2.5-VL-7B。

使用方面,2506 版本在图像理解、数学计算、OS 智能体接地和视频分析等多个领域都有出色表现,并且支持特定回答模式和思考链。

目前,Kimi-VL-A3B-Thinking-2506 已在 HuggingFace 和 GitHub 上架,技术报告也同步公开。

HuggingFace: https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506

GitHub: https://github.com/MoonshotAI/Kimi-VL

技术报告:https://arxiv.org/abs/2504.07491(@APPSO

5、海螺 AI 发布 Hailuo Video Agent:视频创作智能体

海螺 AI 在 MiniMax Week 第四天重磅推出 Hailuo Video Agent。

这一功能目前已经上线海螺 AI 网页端、App 端,页面的主页下方点击「Agent」就能看到专业视频创意 Agent 模版,包含敦煌壁画风、天降好物广告、巨大生物走秀、法式复古走秀、炫酷广告等模版。

官方表示该智能体将分三个阶段逐步完善,第一阶段现已发布,提供丰富的视频创意模板;预计 2025 年 Q3 将推出第二阶段,支持用户在任意进度点打断和编辑视频;最终阶段将实现完全自主的自动化剪辑。

该工具已经开放 Beta 版本,用户体验不同的模版生成会扣除相应积分,如「万物皆可敦煌壁画」要扣除 433 积分,「炫酷广告」扣除 251 积分等。

海螺 AI 的订阅分基础、标准、大师、至臻会员,每月对应提供 1000、4500、10000、12000 积分,免费用户不提供积分。(@ 智东西、@ 三花 AI)

02 有亮点的产品

1、Martin:像 JARVIS 一样的 AI 个人智能体

Martin 是一款可以通过语音、短信、WhatsApp、电子邮件或电话联系 Martin,Martin 会与用户建立个人偏好数据,了解用户最关心的事项的 AI 产品。Martin 可以为用户进行调研、设置提醒、管理待办事项和日历、检查电子邮件、代表用户发送短信和拨打电话,以及使用 Slack。随着对用户的偏好和工作流程的熟悉,Martin 会主动联系用户。

现已在 APP Store 上线。

APP Store:

https://apps.apple.com/us/app/martin-personal-assistant/

相关链接:https://www.trymartin.com/(@APP Store、@ProductHunt

2、Meta 发布性能最强 AI 眼镜:能进行第一视角的视频通话,也支持直接在 Instagram 直播

美国知名运动眼镜和配件品牌欧克利(Oakley)宣布了一款与 Meta 合作的智能眼镜—— Oakley Meta HSTN(发音为 how-stun),口号为「性能 AI 眼镜」:本次与 Meta 合作的欧克利与雷朋一样,两者均为全球眼镜行业巨头依视路陆逊梯卡(EssilorLuxottica SA)麾下的子品牌。

Oakley Meta HSTN 用上了一颗新的 1200 万像素摄像头,录制规格从 1080P 跃进到了 3K。只不过目前官方仍未宣布更具体的参数,比如是否去除了雷朋上 3 分钟的录制时限,以及是否有新的针对运动场景的增稳算法等等。

此外,在交互功能上 Oakley Meta HSTN 则与雷朋款基本保持了一致,两者都可以通过镜腿上的按钮与触控区域唤醒手机上的 Meta AI 助手,也可以直接作为蓝牙耳机,用来听音乐和接打电话,还能进行第一视角的视频通话。

从发布视频所展示的使用场景看,Meta AI 增强了对于运动方面的视觉识别的搜索功能,比如在打高尔夫时询问 AI 当时的风速和风向,或者在冲浪和滑板时让它开启录像并分享给好友,也支持直接在 Instagram 直播。

根据业内人士披露,Meta 旗下短时间内不会推出带显示功能的智能眼镜,而是专注于拍照录像和语音交互。(@APPSO)

03 Real-Time AI Demo

1、 Gemini Computer:一个未来实时交互界面可能性的展示

Gemini Computer 是一个未来实时交互的展示工具。类似一种实时的交互操作系统,没有固定的界面。

Gemini 2.5 Flash-Lite 能够根据前一屏幕的内容,在用户点击一个按钮的瞬间,自动生成下一屏幕的 UI 代码和相关内容

Gemini 2.5 能够在极短的时间内,根据前一界面的上下文,瞬间预测并编码写出点击后新的用户界面和内容。而且每次点进去可能都不一样,完全基于之前的内容进行生成。可以根据上下文或者用户的需求实时生成交互界面,并展示内容。

例如,用户通过与界面的互动或语音输入,就能实时调整和定制 UI,而无需依赖传统的静态设计工具。

不仅仅是生成 UI,AI 还可以根据用户想要的内容智能的调整界面元素展示内容,可以随心所欲的进行各种交互动作。

作者:

shubhamvscode\@X

demo 链接:

https://x.com/i/status/1936371786196955624

相关链接:

https://gemini-computer.vercel.app/(@imxiaohu\@X

04 有态度的观点

1、罗永浩放弃 AR 智能眼镜类产品研发,转向为 AI 智能硬件和 AI 大模型

日前,罗永浩在 AGI Playground 2025 活动上表示,将在未来 2-3 个月内发布一款与 AI 邮件有关的生产力软件。他透露,经过一年多对 AR 硬件探索后发现商业化困难,团队已转向软件开发。

罗永浩表示,自己在 2022 年 5 月成立了细红线公司,主打「软件和硬件结合」。这两年多没有动静,主要是因为团队在埋头搞研发,其还称「没做出来东西之前就没有什么好出来嘚瑟的」。

罗永浩还透露,自己的新公司用了一年多的时间,烧了很多钱,同时证实了 10 年内 AR 眼镜都不太可能商业化。据 XR Vision 今年 4 月消息,细红线早在去年已放弃 AR 智能眼镜类产品研发,继而转向为 AI 智能硬件和 AI 大模型的研发。据悉,2025 年初在 AI 智能硬件完成之后,细红线整个硬件团队已被全部裁撤。

活动上,罗永浩还分享了一段与 DeepSeek 创始人梁文锋的会面经历。对于罗永浩从事 AI 创业,梁文锋表示「结果我不好判断」。

梁文锋指出罗永浩的口才表达能力堪称「中国前三」,建议他应该转战播客节目。受到这一「靠嘴吃饭」建议的启发,罗永浩透露将在今年底前打造一个类似 Lex Fridman、Joe Rogan 的播客节目,充分发挥自己的表达优势。

另外,罗永浩还表示希望通过继续举办「科技春晚」为年轻 AI 创业者提供展示平台,重现当年子弹短信一周内 1500 万用户增长的推广效应,为中国 AI 发展贡献力量。(@APPSO)

2、马斯克:数字超级智能即将到来,人类智能占比将不足 1%

近期,马斯克出席由创业孵化器 Y Combinator 主办的活动,并分享了关于 AI 未来、多行星物种等观点。

马斯克表示,人类正处于「智能大爆炸的极其早期阶段」。他预测,数字超级智能——即在任何方面都比人类更聪明的 AI——「如果今年没有发生,明年肯定会发生」。在他看来,在不远的将来,人类智能在总智能中的占比将微乎其微。

「在某个时刻,人类智能的总和将不到所有智能的 1%,」他说道,「即使假设人口显著增长,每个人智商都达到 1000,集体人类智能可能也只有数字智能的十亿分之一。」

马斯克表示,成为多行星物种将大大增加文明、意识或智能的可能寿命。他预计约 30 年内,火星将有足够的质量转移,使其能够自我维持。

在谈到 AI 安全时,马斯克认为最重要的是「严格恪守真相」。他认为「如果你强迫 AI 相信不真实的事物」,可能会使 AI 变得非常危险。

马斯克预测将有 5-10 个深层智能,不会出现单一 AI 占绝对优势的情况。他给出了 10%-20% 的毁灭可能性,但同时表示有 80%-90% 的概率会有极佳的结果。

🔗原采访内容:https://youtu.be/cFIlta1GkiE(@APPSO

更多 Voice Agent 学习笔记:

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册