AI测试 Runway 发布世界模型，模拟实时环境和可交互数字人；Qwen3-Omni 升级，视频语义理解与音视频同步能力持续优化丨日报

RTE开发者社区 · 2025年12月13日 · 3735 次阅读

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、GPT-5.2 正式发布，狙击 Google Gemini 3

今天凌晨，OpenAI 正式发布 GPT-5.2 系列模型，面向 ChatGPT 付费用户与开发者 API，分为 Instant、Thinking、Pro 三个版本，定位为更可靠的生产级模型。

Instant 版：强调低延迟与高响应，适配信息查询、文档翻译、基础写作等常规任务
Thinking 版：聚焦编程、长文档分析、数学推理与项目规划，定位企业级复杂场景的智能助手
Pro 版：面向科研、金融与高难度任务，强调极致准确性与可靠性，被称为「能力天花板」

在技术性能方面，GPT-5.2 在编程能力、数学与科学计算、事实准确性以及多模态处理上均有显著提升，能够直接生成表格、制作 PPT、编写多语言代码，进一步强化其在专业场景中的生产力定位。

同时，OpenAI 宣布计划在 2026 年第一季度上线成人模式，并将知识库更新至 2025 年 8 月，以保证信息的时效性与准确性。

此前，面对 Google Gemini 3 的竞争，OpenAI CEO 奥特曼已在公司内部开启「红色警报」。

他承认，Google 在预训练方面的成功已缩小了双方差距，并可能带来经济压力。为此，OpenAI 正在调整战略，暂时放缓 AGI 目标，全力提升 ChatGPT 的质量，以应对竞争。

奥特曼当地时间周四在接受 CNBC 采访时表示，Google 的「Gemini 3」对公司指标的影响低于预期，并预计 OpenAI 将在 1 月退出「红色警报」。

OpenAI 应用业务 CEO Fidji Simo 称，此次发布并非因本周竞争驱动，而是经多月整合推进的成果。

GPT-5.2 现已在 ChatGPT 陆续开放并优先覆盖付费用户；GPT-5.1 将在「传统模型」选项中保留三个月后下线。API 同步开放，价格较 GPT-5.1 更高，但因 token 效率提升，总成本预期更低。

今天，OpenAI 还与迪士尼达成了三年授权协议。用户可以生成包含迪士尼、漫威、皮克斯和星球大战等 200 多个角色的社交视频，部分生成视频还可在 Disney+ 上播放。

作为交换，迪士尼向 OpenAI 投资 10 亿美元，并将成为后者的重要客户。

( @APPSO)

2、Runway 发布 GWM-1 世界模型，Gen-4.5 视频模型支持原生音频与长视频

昨夜，Runway 正式发布其首个通用世界模型（General World Model， GWM-1），并更新 Gen-4.5 视频模型。GWM-1 通过逐帧预测，模拟物理和世界动态，旨在训练机器人、生命科学等领域的智能体。

GWM-1 系列模型：
- GWM-1 核心：采用自回归架构，理解物理和世界行为，支持用户通过提示或图像参考设置场景，并在 720p/24fps 下进行交互式探索。
- GWM-Worlds：实时环境模拟应用，用户可导航生成空间。
- GWM-Robotics：专为机器人训练设计，通过合成数据（含天气、障碍物参数）加速开发。
- GWM-Avatars：模拟人类行为，生成逼真的交互式数字人，支持音频驱动的自然响应。
- 模型整合：Runway 计划将 Worlds， Robotics， Avatars 合并为一个统一模型。
Gen-4.5 更新：

原生音频与多镜头：新增原生音频生成与编辑功能，支持长视频（如 1 分钟视频）、多角度镜头（multi-shot）生成，角色一致性及口型同步。
产品可用性：Gen-4.5 更新已面向所有付费用户开放；GWM-Robotics 将通过 SDK 提供，并与多家机器人公司及企业洽谈合作。

Runway 计划在未来几周内通过 Web 产品和 API 向用户开放这些新模型。

( @TechCrunch)

3、阿里通义 Qwen3-Omni 新升级：声形意合，令出智随！

昨天，阿里通义正式发布基于 Qwen3-Omni 的全面升级版本「Qwen3-Omni-Flash-2025-12-01」。

据介绍，新模型可无缝处理文本、图像、音频、视频输入，并以流式方式同时生成自然语音与文本输出，整体针对多模态交互的准确性与效率进行增强。具体升级如下：

音视频理解与执行： 面向口语化场景显著提升对音视频指令的理解与执行能力，缓解多模态对话中的「降智」问题；多轮音视频对话的稳定性与连贯性增强，交互更自然顺畅。
系统提示可控： 全面开放 System Prompt 自定义，可精细调控模型行为（如人设风格、口语化偏好、回复长度等），提升可控性与一致性。
多语言遵循： 支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言，优化上版语言遵循不稳定问题，确保跨语言场景下响应准确一致。
语音生成拟人化： 解决语速拖沓与机械感，提升对于语速、停顿与韵律的自适应调节，语音表达更自然生动。
视觉与视频理解： 在多学科视觉问答与数学视觉推理任务上取得进展，视频语义理解与音视频同步能力持续优化，为实时视频对话打下基础。

官方表示，后续将推进多说话人 ASR、视频 OCR、音视频主动学习等核心能力建设，并强化基于智能体的工作流与函数调用支持，以进一步提升复杂场景下的可控性与执行力。

( @APPSO)

02 有亮点的产品

1、拓竹 MakerWorld 接入腾讯混元 3D 3.0，上线「印你」图生 3D 手办生成器

拓竹科技（Bambu Lab）旗下 3D 模型平台 MakerWorld 已接入腾讯混元 3D 3.0 模型，并推出「印你」手办生成器。该功能允许用户上传一张人像图片，快速生成高质量、可打印的 3D 模型，大幅降低 3D 手办制作门槛。

「印你」生成器核心能力：
- 简化流程：用户只需上传一张人像图片，系统自动完成 2D 立体图生成、背景消除、风格化处理，最终转化为精确还原面容、衣着和姿态的 3D 模型。
- AI 驱动：核心技术源自腾讯混元 3D 3.0 模型，采用 3D-DiT 分级雕刻技术。
混元 3D 3.0 技术亮点：
- 精度提升：建模精度提升 3 倍，几何分辨率高达 1536³，支持 36 亿体素超高清建模。
- 面部与细节：专项优化人物生成，重塑面部轮廓，提升体态自然度；通过分级策略，实现关节、机械边缘等细节的锐利呈现。
- 纹理逼真：优化纹理遵循度和几何对齐精度，确保打印成品真实贴合。

此次合作使 MakerWorld 平台的设计周期大幅缩短，让 3D 打印爱好者和入门用户无需专业建模技术即可创作。

03 有态度的观点

1、微软消费者 AI 业务负责人苏莱曼：要创造「符合人类利益」的超级智能

12 月 12 日消息，北京时间今天凌晨，据彭博社报道，微软消费者生成式 AI 主管穆斯塔法・苏莱曼强调，要推动一种「符合人类利益」的超级智能，并承诺如果出现危及人类的结果，就会立刻停止。

苏莱曼在彭博《The Mishal Husain Show》节目中表示，公司绝不会继续推动任何可能脱离控制的系统，这种观点本应是行业常识，但目前仍属少见。

去年年初，微软收购了苏莱曼的初创公司 Inflection AI 的知识产权和大部分员工。之后，苏莱曼加入微软。

此前，微软的大部分 AI 工具主要依赖 OpenAI，而在苏莱曼入职后，微软便开始责成其开发能够与业内最佳产品相媲美的产品。

（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考

暫無回覆。

需要登录後方可回應，如果你還沒有帳號按這裡注册。