AI测试 Runway 发布世界模型,模拟实时环境和可交互数字人;Qwen3-Omni 升级,视频语义理解与音视频同步能力持续优化丨日报

RTE开发者社区 · 2025年12月13日 · 132 次阅读

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、GPT-5.2 正式发布,狙击 Google Gemini 3

图片

今天凌晨,OpenAI 正式发布 GPT-5.2 系列模型,面向 ChatGPT 付费用户与开发者 API,分为 Instant、Thinking、Pro 三个版本,定位为更可靠的生产级模型。

  • Instant 版:强调低延迟与高响应,适配信息查询、文档翻译、基础写作等常规任务

  • Thinking 版:聚焦编程、长文档分析、数学推理与项目规划,定位企业级复杂场景的智能助手

  • Pro 版:面向科研、金融与高难度任务,强调极致准确性与可靠性,被称为「能力天花板」

图片

在技术性能方面,GPT-5.2 在编程能力、数学与科学计算、事实准确性以及多模态处理上均有显著提升,能够直接生成表格、制作 PPT、编写多语言代码,进一步强化其在专业场景中的生产力定位。

同时,OpenAI 宣布计划在 2026 年第一季度上线成人模式,并将知识库更新至 2025 年 8 月,以保证信息的时效性与准确性。

此前,面对 Google Gemini 3 的竞争,OpenAI CEO 奥特曼已在公司内部开启「红色警报」。

他承认,Google 在预训练方面的成功已缩小了双方差距,并可能带来经济压力。为此,OpenAI 正在调整战略,暂时放缓 AGI 目标,全力提升 ChatGPT 的质量,以应对竞争。

奥特曼当地时间周四在接受 CNBC 采访时表示,Google 的「Gemini 3」对公司指标的影响低于预期,并预计 OpenAI 将在 1 月退出「红色警报」。

OpenAI 应用业务 CEO Fidji Simo 称,此次发布并非因本周竞争驱动,而是经多月整合推进的成果。

GPT-5.2 现已在 ChatGPT 陆续开放并优先覆盖付费用户;GPT-5.1 将在「传统模型」选项中保留三个月后下线。API 同步开放,价格较 GPT-5.1 更高,但因 token 效率提升,总成本预期更低。

今天,OpenAI 还与迪士尼达成了三年授权协议。用户可以生成包含迪士尼、漫威、皮克斯和星球大战等 200 多个角色的社交视频,部分生成视频还可在 Disney+ 上播放。

作为交换,迪士尼向 OpenAI 投资 10 亿美元,并将成为后者的重要客户。

( @APPSO)

2、Runway 发布 GWM-1 世界模型,Gen-4.5 视频模型支持原生音频与长视频

昨夜,Runway 正式发布其首个通用世界模型(General World Model, GWM-1),并更新 Gen-4.5 视频模型。GWM-1 通过逐帧预测,模拟物理和世界动态,旨在训练机器人、生命科学等领域的智能体。

  • GWM-1 系列模型:

    • GWM-1 核心:采用自回归架构,理解物理和世界行为,支持用户通过提示或图像参考设置场景,并在 720p/24fps 下进行交互式探索。
    • GWM-Worlds:实时环境模拟应用,用户可导航生成空间。
    • GWM-Robotics:专为机器人训练设计,通过合成数据(含天气、障碍物参数)加速开发。
    • GWM-Avatars:模拟人类行为,生成逼真的交互式数字人,支持音频驱动的自然响应。
    • 模型整合:Runway 计划将 Worlds, Robotics, Avatars 合并为一个统一模型。
  • Gen-4.5 更新:


  • 原生音频与多镜头:新增原生音频生成与编辑功能,支持长视频(如 1 分钟视频)、多角度镜头(multi-shot)生成,角色一致性及口型同步。

  • 产品可用性:Gen-4.5 更新已面向所有付费用户开放;GWM-Robotics 将通过 SDK 提供,并与多家机器人公司及企业洽谈合作。

Runway 计划在未来几周内通过 Web 产品和 API 向用户开放这些新模型。

( @TechCrunch)

3、阿里通义 Qwen3-Omni 新升级:声形意合,令出智随!

昨天,阿里通义正式发布基于 Qwen3-Omni 的全面升级版本「Qwen3-Omni-Flash-2025-12-01」。

图片

据介绍,新模型可无缝处理文本、图像、音频、视频输入,并以流式方式同时生成自然语音与文本输出,整体针对多模态交互的准确性与效率进行增强。具体升级如下:

  • 音视频理解与执行: 面向口语化场景显著提升对音视频指令的理解与执行能力,缓解多模态对话中的「降智」问题;多轮音视频对话的稳定性与连贯性增强,交互更自然顺畅。

  • 系统提示可控: 全面开放 System Prompt 自定义,可精细调控模型行为(如人设风格、口语化偏好、回复长度等),提升可控性与一致性。

  • 多语言遵循: 支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,优化上版语言遵循不稳定问题,确保跨语言场景下响应准确一致。

  • 语音生成拟人化: 解决语速拖沓与机械感,提升对于语速、停顿与韵律的自适应调节,语音表达更自然生动。

  • 视觉与视频理解: 在多学科视觉问答与数学视觉推理任务上取得进展,视频语义理解与音视频同步能力持续优化,为实时视频对话打下基础。

官方表示,后续将推进多说话人 ASR、视频 OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持,以进一步提升复杂场景下的可控性与执行力。

( @APPSO)

02 有亮点的产品

1、拓竹 MakerWorld 接入腾讯混元 3D 3.0,上线「印你」图生 3D 手办生成器

拓竹科技(Bambu Lab)旗下 3D 模型平台 MakerWorld 已接入腾讯混元 3D 3.0 模型,并推出「印你」手办生成器。该功能允许用户上传一张人像图片,快速生成高质量、可打印的 3D 模型,大幅降低 3D 手办制作门槛。

  • 「印你」生成器核心能力

    • 简化流程:用户只需上传一张人像图片,系统自动完成 2D 立体图生成、背景消除、风格化处理,最终转化为精确还原面容、衣着和姿态的 3D 模型。
    • AI 驱动:核心技术源自腾讯混元 3D 3.0 模型,采用 3D-DiT 分级雕刻技术。
  • 混元 3D 3.0 技术亮点

    • 精度提升:建模精度提升 3 倍,几何分辨率高达 1536³,支持 36 亿体素超高清建模。
    • 面部与细节:专项优化人物生成,重塑面部轮廓,提升体态自然度;通过分级策略,实现关节、机械边缘等细节的锐利呈现。
    • 纹理逼真:优化纹理遵循度和几何对齐精度,确保打印成品真实贴合。

此次合作使 MakerWorld 平台的设计周期大幅缩短,让 3D 打印爱好者和入门用户无需专业建模技术即可创作。

相关链接:

https://makerworld.com.cn/zh/makerlab/printU?from=makerlab

(@ 腾讯混元)

2、夸克 AI 眼镜「一机难求」,二手市场价格飙至 6999 元

图片

夸克 AI 眼镜在发布后市场需求远超预期,线上线下均出现「一机难求」的情况。核心供应商透露,夸克已在工厂新增一条组装产线,产能预计从下周开始逐步释放。

立讯内部人士表示,夸克团队上个月已密集进驻工厂,新增产线以加快出货。至格科技创始人孟祥峰则指出,公司正在加紧生产夸克 AI 眼镜的大批光波导片订单,新购设备已全面投入使用。

夸克内部人士透露,团队的主要目标是确保在明年 1 月能够充分释放产能,以赶上春节消费热潮。

今年 11 月,夸克发布 S1、G1 两个系列共六款单品,其中 S1 系列最低售价为 3799 元,G1 系列起售价为 1899 元。这也是阿里旗下大模型「千问」首次走出屏幕,进入物理硬件形态。

目前,天猫、抖音、京东等平台上的夸克 AI 眼镜 S1 均处于「上架即售罄」状态。

在闲鱼等二手交易平台,现货价格最高被炒至 6999 元。线下渠道方面,多家合作门店表示暂无现货,新订单普遍需要等待约一个月甚至 40 天。

( @APPSO)

03 有态度的观点 

1、微软消费者 AI 业务负责人苏莱曼:要创造「符合人类利益」的超级智能

12 月 12 日消息,北京时间今天凌晨,据彭博社报道,微软消费者生成式 AI 主管穆斯塔法・苏莱曼强调,要推动一种「符合人类利益」的超级智能,并承诺如果出现危及人类的结果,就会立刻停止。

苏莱曼在彭博《The Mishal Husain Show》节目中表示,公司绝不会继续推动任何可能脱离控制的系统,这种观点本应是行业常识,但目前仍属少见。

去年年初,微软收购了苏莱曼的初创公司 Inflection AI 的知识产权和大部分员工。之后,苏莱曼加入微软。

此前,微软的大部分 AI 工具主要依赖 OpenAI,而在苏莱曼入职后,微软便开始责成其开发能够与业内最佳产品相媲美的产品。

@IT 之家)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册