AI测试 基于世界模型的实时互动游戏引擎 Mirage:可自然语言创造可互动游戏;阿里开源 OmniAvatar:音频生成全身数字人视频丨日报

RTE开发者社区 · 2025年07月03日 · 191 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 社区项目推荐

1、基于世界模型的实时互动游戏引擎预览版 Mirage:可以使用自然语言创造可互动的游戏场景

Mirage 是一个基于世界模型的实时互动游戏引擎预览版,具备模拟 GTA、Forza Horizon 等游戏的能力,让你可以使用自然语言创造可互动的游戏场景!

  • 用户生成内容(UGC):玩家不仅仅是重玩预设的游戏——玩家可以编辑、扩展并创造全新的世界;

  • 丰富的视觉效果与控制:支持类似 GTA 或 Forza 风格的复杂沉浸式体验,超越了 Minecraft 或 DOOM 那种方块式的简易风格;

  • 长时游戏玩法:支持持续 5 到 10 分钟甚至更长时间的游戏,而不仅仅是几秒钟的短暂体验。

博客: https://blog.dynamicslab.ai/

体验: https://demo.dynamicslab.ai/drifthttps://demo.dynamicslab.ai/chaos

X: https://x.com/DynamicsLab_AI/status/1940459348423332198

02 有话题的技术

1、阿里联合夸克开源 OmniAvatar:支持根据输入的音频和文本提示生成全身数字人视频

OmniAvatar 是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。

可根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。

模型基于像素级多级音频嵌入策略和 LoRA 训练方法,有效提升唇部同步精度和全身动作的自然度,支持人物与物体交互、背景控制和情绪控制等功能,广泛应用在播客、互动视频、虚拟场景等多种领域。

  • 自然唇部同步:能生成与音频完美同步的唇部动作,在复杂场景下保持高度准确性;

  • 全身动画生成:支持生成自然流畅的全身动作,让动画更加生动逼真;

  • 文本控制:基于文本提示精确控制视频内容,包括人物动作、背景、情绪等,实现高度定制化的视频生成;

  • 人物与物体交互:支持生成人物与周围物体互动的场景,如拿起物品、操作设备等,拓展了应用范围;

  • 背景控制:根据文本提示改变背景,适应各种不同的场景需求;

  • 情绪控制:基于文本提示控制人物的情绪表达,如快乐、悲伤、愤怒等,增强视频的表现力。

GitHub:https://github.com/Omni-Avatar/OmniAvatar (@AIGitHub)

2、智谱开源新一代通用视觉语言模型 GLM-4.1V-Thinking

7 月 2 日,智谱正式推出并开源了新一代通用视觉语言模型 GLM-4.1V-Thinking,号称「GLM 系列视觉模型实现从感知走向认知的关键跃迁」。

具体来看,GLM-4.1V-Thinking 是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。其在 GLM-4V 架构基础上引入「思维链推理机制(CoT Reasoning)」,采用「课程采样强化学习策略(RLCS)」,系统性提升模型跨模态因果推理能力与稳定性。

轻量版 GLM-4.1V-9B-Thinking 模型参数控制在 10B 级别,其在 MMStar、MMMU-Pro 等 28 项权威评测中,有 23 项达成 10B 级模型的最佳成绩,其中 18 项更是持平或超越参数量高达 72B 的 Qwen-2.5-VL。

官方表示,GLM-4.1V-9B-Thinking 在图文理解、数学与科学推理、视频理解、GUI 与网页智能体任务、视觉锚定与实体定位等五大方面表现卓越,展示出高度的通用性与稳健性。

智谱还推出了全新生态平台「Agent 应用空间」。

据悉,「Agent 应用空间」是一个面向企业客户和开发者的 AI Agent 能力聚合平台,平台汇聚丰富的 Agent 应用与模型插件(MCP),提供开箱即用、灵活编排的组件服务和 Agents 应用,帮助企业无需自建大模型团队。

目前,GLM-4.1V-9B-Thinking 已在 GitHub、HuggingFace、魔搭社区开源,并公布了技术论文、API 接口文档,本次上线 GLM-4.1V-9B-Base 基座模型和 GLM-4.1V-9B-Thinking 两款模型。

论文链接:https://arxiv.org/abs/2507.01006

GitHub: https://github.com/THUDM/GLM-4.1V-Thinking

HuggingFace: https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

魔搭社区:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

API 接口文档:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking(@APPSO)

3、百度发布自研视频生成模型 MuseSteamer:一张图即可生成电影级高清中文有声视频

百度 AI Day 开放日上,百度商业研发团队发布自研视频生成模型「MuseSteamer」及创作平台「绘想」。能支持连续 10s 的动态视频,画质直充电影级水准,支持灵活控制场景、动作、镜头感,以及音视一体化的生成。

MuseSteamer 的有声版,能直接支持一体化生成音效和台词,大大加速影视内容生成的工作流。同时支持自动为 AI 视频同步生成中文人声。

MuseSteamer 在数据采集与清洗方面做了大量工作,构建了亿级规模的视频切片数据库。具体来说,团队构建了三级视频类别标签体系,覆盖了人物、自然、食物、动物、建筑、交通工具、设计合成等主要类别。在数百种的三级标签体系基础上,团队又进行了细粒度的场景划分。因为进一步采用隐式聚类算法,对视频进行了空间划分与样本均衡,就降低了高频易学样本比例,提升了长尾难学样本比例。

团队构建了一套完整的有声视频生成能力,围绕「谁在说、怎么说、在什么环境下说」三个关键问题,通过多人自动化对齐编排、音视对齐 Refiner,实现了视觉信息、高还原度的人声与环境音自动生成能力。

因为团队提出了多模态编排与音视频一体化学习模型,能让视觉、音频信号以端到端方式充分学习与对齐,就确保了对话、背景音、音乐等多轨音频与视觉内容自然融合,增强观感的沉浸感和真实感。

Turbo 版已开启限时免费公测,其余 8 月开放,平台还启动创作大赛。

相关链接:https://huixiang.baidu.com(@ 新智元)

03 有亮点的产品

1、多模态研究与播客生成工具 Multi-Modal Researcher,支持运行时定制,包括模型选择、内容创作温度和语音配置等功能

Multi-Modal Researcher 是一个基于 LangGraph 的自动化工作流项目旨在利用 Google Gemini 2.5 系列模型的独特能力,实现主题研究和播客生成。用户可以输入一个研究主题并选择提供 YouTube 视频 URL,系统将通过 Gemini 的搜索工具进行网络研究,并结合视频分析生成带引用的综合报告。同时,它还能够生成多扬声器对话的播客脚本和 TTS 音频文件,提供多模态输出。该项目支持运行时定制,包括模型选择、内容创作温度和语音配置等功能。

相关链接:https://github.com/langchain-ai/multi-modal-researcher(@ 果比 AI)

2、百度搜索框升级为「智能框」,能支持超过千字的文本输入,可兼容图片、语音、视频等多种输入形式

百度搜索近日进行重大改版,标志着近十年来最显著的更新。产品形态上,输出端的搜索框「变大」,支持超长文本搜索、文件搜索、AI 工具调用和语音搜索等功能;输入端则嵌入了服务工具,在用户提出问题的实际场景下提供直接、丰富的表达。

不止是搜索框的变化,搜索的结果页也变得更智能,「百看」功能全新升级,不仅支持图文、音视频混合输出结构化内容,还接入智能体、真人服务等能力。

百度搜索内置的「AI 助手」也迎来重大能力升级。

首先是多模态输入输出能力的升级。AI 助手将支持视频通话,可和现实世界实时互动,实时响应。百度搜索的 AI 助手还升级了视频智能创作能力,只需输入一句话描述,便能生成一段 5 分钟视频,降低了视频创作的时间与成本门槛;商业研发团队发布的自研视频生成模型 MuseSteamer,可以实现中文音视频一体化生成,一张图生成 10 秒 1080p 电影级画质视频,目前已规模化应用于广告视频制作。

AI 生成式相机功能,用户拍摄照片后,即可获得如导游讲解般的深度解说,或设备故障维修的详细步骤指导。这将用户的搜索意图直接转化为实用的解决方案,直接响应当下用户对「任务解决」而非单纯「信息获取」的进阶需求。

其次,AI 助手的一站式工作台,具备智能创作、实时编辑、异步交付、一键存储四大核心能力。(@ 虎嗅 APP、@ 百度搜索)

04 有态度的观点

1、Google DeepMind 研究员:上下文对推理和 Agent 都很重要

日前,Google DeepMind 长上下文预训练联合负责人 Nikolay Savinov 在播客节目中,分享了自己对「长上下文与模型」的未来发展。

首先,Nikolay 开头解释了上下文对 AI 模型的重要性:相较于互联网所学到的「预训练记忆」,上下文内记忆更容易修改和更新。因此,拥有上下文记忆后,模型能够更贴合用户所需,让用户能够获得一个量身定制的回答。

另外,Nikolay 提到,为了能让模型减少幻觉(捏造答案),用户可以插入一些罕见的事实去纠正。而长上下文模型,能够吸取到更多有效的事实信息,也能够更高程度地召回和覆盖相关知识,从而减少「预训练记忆」带来的幻觉几率。

对于第三种引入上下文的方式「RAG」(能够用于检索数十亿 token 信息库),Nikolay 则认为,在实际应用中,RAG 不会迅速被淘汰(即整合进模型中),而是会与长上下文来协同工作。Nikolay 指出,真正的限制因素在于应用程序的延迟要求:长短上下文都有各自优点,但需要结合实际考虑使用。

Nikolay 还指出,理论上讲,具备强大长上下文能力的模型,也应该在推理方面表现出色。同时上下文对推理也十分重要:上下文所带来的「输出反馈回输入」,能够让模型获得相当于拥有了可供写入的「记忆」,从而能够处理比单纯依赖网络深度时更复杂的任务。

在 Agent(智能体)方面,Nikolay 同样认为上下文与其紧密联系:Agent 既能作为长上下文的使用者,也能充当长上下文的提供者。「让 Agent 既能记住此前的交互信息,又能让 Agent 主动向模型提供资料」,从而减少人类的干扰,让人类在使用 Agent 时能够更加轻松。(@APPSO)

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册