开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、腾讯混元发布国内首个开放体验的实时世界模型

12 月 17 日,腾讯混元发布世界模型 1.5(Tencent HY WorldPlay)。

据悉,混元世界模型 1.5 是国内首个开放体验的实时世界模型,用户输入文字描述或者图片即可创建专属的互动世界。

同时,混元世界模型 1.5(WorldPlay)首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路、全环节,并提出了重构记忆力、长上下文蒸馏、基于 3D 的自回归扩散模型强化学习等算法模块。

值得一提的是,混元世界模型 1.5 能够让用户在生成的世界里随意移动探索:离开某个区域再次返回时,模型能够「记住」该区域的三维结构,呈现前后一致的场景。

另外,模型支持多样化的交互体验、长范围的 3D 一致性、实时的交互生成(可以按照 24 FPS 的速度生成 720P 的高清视频)。

目前,用户可以在腾讯混元 3D 官网申请使用。

在线体验网站:
https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplayGithub

链接:
https://github.com/Tencent-Hunyuan/HY-WorldPlayHugging

Hugging Face:
https://huggingface.co/tencent/HY-WorldPlay

项目主页:
https://3d-models.hunyuan.tencent.com/world/

( @APPSO)

2、xAI 发布 Grok Voice Agent API:原生支持多模态交互,响应速度 < 1 秒

Grok Voice Agent API 在特斯拉汽车里使用案例。例如,告诉 Grok 规划一次公路旅行,它会在 X 上搜索推荐、计算最优路线并添加停靠点,在几秒钟内生成完整行程。

xAI 推出 Grok Voice Agent API,允许开发者集成具备实时数据搜索、工具调用和多语言能力(支持数十种语言)的语音智能体。该 API 在 Big Bench Audio 评测中排名第一,平均首音频响应时间(Time-to-First-Audio)低于 1 秒。

Grok Voice Agent API 目前已通过 xAI API 开放,兼容 OpenAI Realtime API 规范。xAI 计划在未来几周内发布独立的 TTS 和 STT 端点,以及性能更优的音频模型。

https://x.ai/news/grok-voice-agent-api

( @xAI Blog)

3、Gemini 3 Flash 正式上线,全球免费享 Pro 级智商

今天凌晨,Gemini 3 Flash 正式发布,直接对标 OpenAI 和 Anthropic 的旗舰模型,官方号称比 2.5 Pro 速度快 3 倍,价格砍到 3 Pro 的四分之一,性能还不降反升。

从今天开始,用户可以在 Gemini 产品线中体验到 Gemini 3 Flash(Fast/Thinking)和 Gemini 3 Pro。

基准测试结果显示,Gemini 3 Flash 保留了 Pro 级别的推理能力,但延迟、成本直接降到 Flash 级别。

具体来说,在 GPQA Diamond 这种博士级推理测试里,它能拿到 90.4% 的成绩,跟那些体积更大的前沿模型打得有来有回。而 MMMU Pro 测试 Gemini 3 Flash 直接拿下 81.2%,达到业界最先进水平,跟自家的 3 Pro 表现相当。

数据显示,Gemini 3 Flash 的 Token 消耗比 2.5 Pro 少了三成,速度快三倍,价格更是压到了输入 0.5 美元/百万 Token,输出 3 美元/百万 Token 的地板价。

此外,Gemini 3 Flash 的亮点还在于多模态能力,它能更快地处理视觉、音频等输入,把「看见、听见、理解」串成一条相对顺滑的链路,适合需要即时反馈的交互场景。

( @APPSO)

02 有亮点的产品

1、Meta AI 眼镜重磅升级:新增「对话聚焦」和 Spotify 视觉配乐功能

12 月 17 日,Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新(v21),推出了两项关键新功能:「对话聚焦」以增强嘈杂环境中的听力清晰度,以及与 Spotify 合作的「视觉配乐」功能。

本次更新中最具实用性的功能是「对话聚焦」,该功能利用 AI 眼镜的开放式扬声器和人工智能技术,能够放大对话者的声音,从而帮助用户在嘈杂的环境,如繁忙的餐厅、酒吧或通勤列车中,更清晰地听到对方说话。

另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。

例如,当你看向一张专辑封面时,眼镜可以播放该歌手的歌曲;当你看着装饰有礼物的圣诞树时,它会播放节日音乐。Meta 承认这项功能更多是「噱头」,但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。

(@ 极客公园、@aibase

2、AI 六小龙抢跑 IPO:MiniMax、智谱均已通过港交所聆讯

12 月 17 日,腾讯新闻《一线》从不同信源处获悉,「AI 六小龙」MiniMax 和智谱 AI,均于本周初获得了中国证监会备案,并参与了港交所的上市聆讯。

腾讯新闻《一线》独家获悉,MiniMax 于 12 月 17 日通过了港交所聆讯。针对智谱 AI 的聆讯事宜,市场也有传闻称其于 12 月 16 日在港参与并通过了聆讯,腾讯新闻《一线》从多位相关人士处证实了该消息。但暂未能获得上述两家公司置评。

除此之外,MiniMax 计划于 2026 年 1 月在港挂牌上市,因为下周开始(即 12 月 20 日),香港开始进入圣诞节假期。暂未知智谱后续的上市安排。

公开资料显示,MiniMax 的保荐人为瑞银等多家投行,智谱 AI 的保荐人则为中金等多家投行。MiniMax 曾于今年 6 月在港通过秘交申请上市,是首个在港提交 IPO 的国内 AI 大模型公司。

这两家公司可能是内地企业赴港上市「报备制」以来,在港过聆讯最快的案例。

公开资料显示,MiniMax 的投资人包括阿里巴巴、明势创投、红杉、高瓴以及腾讯、IDG 等多家机构。

(@ 腾讯科技)

03 有态度的观点

1、罗福莉首次站台小米演讲,揭秘 MiMo 大模型和背后团队

昨天,小米举办了年度「人车家全生态」合作伙伴大会,备受关注的 Xiaomi MiMo 大模型负责人、拥有「AI 天才少女」之称的罗福莉也迎来入职后首秀。其对近期发布的 Xiaomi MiMo-V2-Flash 开源 MoE 模型进行了介绍。

据悉,模型推理速度十分快。罗福莉解释称,MiMo-V2-Flash 围绕极致推理效率设计了模型结构,通过 3 层 MTP 推理加速并行 Token 验证,实现了 2.0~2.6 倍的推理速度提升。

MiMo-V2-Flash 凭借总参数 309B(激活 15B),实现了代码和 Agent 评测基准上全球开源模型 Top2,且初步具备模拟世界的能力。

值得一提的是,罗福莉还谈到了下一代智能体系统,认为下一代智能体系统不是一个「语言模拟器」,而是一个真正能够理解世界、并与之共存的「智能体」。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘:Unicorn Blocks 等你来,一起定义下一代智能玩具!

公司描述: Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司,致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」,《玩具总动员》中的角色来到我们的世界。

核心团队: 由海外常春藤联盟及国内 C9 高校顶尖人才组成,涵盖产品设计、AI 算法、硬件工程等跨领域专家。公司已完成头部机构领投的种子轮融资,正处于高速发展阶段,期待你的加入共同书写新篇章!

岗位职责

岗位要求

岗位亮点

定义下一代智能玩具

超速成长体系

个人加分项

有兴趣请投递简历到:

Bruce.Unicorntoy@gmail.com

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流