AI测试 阿里发布 Qwen3-Max-Thinking;阶跃星辰获超 50 亿融资,加速推进「AI 进入物理世界」丨日报

RTE开发者社区 · 2026年01月28日 · 76 次阅读

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、阿里发布万亿参数模型 Qwen3-Max-Thinking,性能对标 GPT-5.2

图片

图片

昨天,阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking。该模型总参数量超万亿(1T),在多项权威评测中刷新全球纪录,官方宣称其性能媲美 GPT-5.2、Gemini 3 Pro,是迄今为止最接近国际顶尖水平的国产 AI 大模型。

Qwen3-Max-Thinking 的预训练数据量高达 36T Tokens,并在预览版基础上进行了更大规模的强化学习后训练。在涵盖事实知识、复杂推理、指令遵循等 19 个基准测试中,该模型刷新了数项最佳表现(SOTA)纪录。

根据官方公布的评测数据,Qwen3-Max-Thinking 在启用 TTS(Test-time Scaling)机制后,在科学知识(GPQA Diamond)测试中得分 92.8,略高于 GPT-5.2 的 92.4;

在数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench 2025.02-2025.05)中分别取得 91.5 和 91.4 的高分,均优于 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。

特别是在启用工具的「人类最后的测试」(Humanity's Last Exam with Search)中,该模型得分为 58.3,大幅领先 GPT-5.2-Thinking 的 45.5 分,录得当前所有模型的最高分。

技术层面,阿里表示 Qwen3-Max-Thinking 采用了一种全新的测试时扩展机制。与业界普遍的简单增加并行推理路径不同,新机制能对此前推理结果进行「经验提取」式的提炼,通过多轮自我迭代在相同上下文中实现更高效的推理计算。

此外,模型大幅增强了自主调用工具的原生 Agent 能力。经过基于规则奖励与模型奖励的联合强化学习训练,模型可自适应选用搜索、个性化记忆和代码解释器等核心工具,不仅回答更流畅,还大幅降低了模型幻觉。

目前,普通用户可通过千问 PC 端和网页端免费试用新模型,千问 App 也即将接入;企业开发者则可通过阿里云百炼获取 API 服务。

体验链接

Qwen Chat: https://chat.qwen.ai/

阿里云百炼:

https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

( @APPSO)

2、打通感知、交互与执行:讯飞星辰升级多模态全栈能力,加速智能体规模化落地

图片

图片

图片

1 月 26 日,讯飞星辰智能体平台官宣重大升级,实现了讯飞星辰智能体平台和 AIUI 开放平台完全打通、升级超拟人交互技术、支持快速定制音色、RPA 升级,提供一套全面且完整的多模交互解决方案,让智能体拥有更全面的类人化交互能力、全场景执行能力。

  • AIUI 开放平台接口打通:支持在「讯飞星辰」创建智能体并一键发布至 AIUI,实现语音交互与机器人动作规划(如桌面机器人绘本生成、运动轨迹)的同步调用与快速集成。

  • 秒级「一句话声音复刻」:利用超拟人交互技术,支持通过自然语言描述声线并在几秒内合成 4 个候选音色;支持中英日韩粤等多语种、方言及多风格(新闻、交谈、绘本)音色生成。

  • 单图构建多模态数字分身:支持通过一张照片快速生成数字人,其口型、表情及动作由大模型自动驱动;结合多模态视觉理解,支持智能体实现主动迎宾与环境感知的交互闭环。

  • RPA 执行能力组件化:升级网页自动化智能组件,支持非专业开发人员通过低代码配置参数进行流程编排;提供开源可视化数据表格功能,实现数据提取与处理过程的透明化。

最直观的一个例子就是,将为智能体定制声音的时间压缩到了几秒钟

发布会的实际演示中,操作人员在讯飞星辰智能体平台生成了曹操人格的智能体后,通过自然语言描述想要的音色声线、输入试听文本、点击生成,就在几秒内合成 4 个候选音色。接着选择保存、应用音色后,用户就能与刚刚的曹操人格智能体进行语音聊天。

图片

这是讯飞星辰智能体平台此次升级的一个缩影,而智能体的未来形态,将从单一工具,升级为兼具感知、交互能力,拥有专属声音、形象与性格人设,还能自主完成操作执行的全能型智能体,驱动这一切进化的核心,正是多模交互技术

当前海内外大厂与科创企业均在智能体平台赛道加速布局、密集发力,但行业仍普遍面临技术落地难、场景适配不深的核心痛点。

讯飞星辰智能体平台此次实现感知、交互、执行三大核心能力的一体化整合,从底层打破智能体落地过程中的技术协同壁垒,直面其场景适配难题,为智能体技术的规模化落地扫清关键障碍。

图片

简言之,讯飞星辰智能体平台此次升级,核心便是瞄准降低智能体开发门槛、丰富其可落地的能力边界两大核心目标,在扩展服务能力的基础上,还提供了低代码、一键接入、快速接入等快速开发部署工具。

总的来看,当前智能体产业技术成熟度足够支撑场景落地,市场需求旺盛,但落地效率与成本仍是核心瓶颈,而打通场景适配、能力集成、生态协同的全栈能力,将成为智能体产业竞争的核心壁垒。

相关链接:

https://agent.xfyun.cn

(@ 智东西、@ 讯飞开放平台)

3、Google 支付 6800 万美元和解金,解决语音助手「监视」用户的指控

据路透社报道,Google 已同意支付 6800 万美元,以解决一项指控其语音助手非法监视用户、并利用相关数据投放广告的索赔诉讼。

Google 在这项集体诉讼的和解协议中并未承认存在任何不当行为。该诉讼指控 Google「在未经个人同意的情况下,非法且故意地拦截并录制个人的机密通信,并随后将这些通信未经授权地披露给第三方。」诉讼进一步声称,「从这些录音中收集的信息被错误地传输给了第三方,用于定向广告及其他目的。」

该案件的核心争议集中在「错误唤醒」上,即指控 Google Assistant 即使在用户未通过唤醒词有意触发的情况下,也会自动激活并录制用户的通信内容。TechCrunch 已就此联系 Google 寻求置评。

长期以来,美国民众一直怀疑电子设备在不适当地监视他们,这些怀疑正日益转化为法律诉讼。2021 年,苹果公司曾同意支付 9500 万美元,以解决关于其语音助手 Siri 在未获用户提示的情况下录制对话的类似指控。

与其他科技巨头一样,Google 近年来也面临着多起隐私相关的诉讼。去年,该公司同意向得克萨斯州支付 14 亿美元,以解决两起指控其违反该州数据隐私法的诉讼。

( @TechCrunch)

02 有亮点的产品

1、249 元起,苹果推出升级版 AirTag,精确查找范围扩大 50%

图片

昨天,苹果突然官宣,正式推出新款 AirTag,采用与 iPhone 17 系列、iPhone Air、Apple Watch Ultra 3 及 Apple Watch Series 11 相同的第二代超宽带芯片,在连接范围、精确查找能力与扬声器音量方面均进行了大幅升级:

  • 精确查找范围最高提升 50%,定位更快更准

  • 蓝牙连接范围扩大,远距离也能找到

  • 扬声器音量提升 50%,提示音更响亮

  • 支持 Apple Watch 精确查找,查找场景更丰富

  • 「查找」网络升级,脱离配对设备也能回传位置

  • 防追踪机制强化,跨平台警报更可靠

  • 支持共享物品位置,协助航空公司找回延误行李

  • 外壳与磁铁采用高比例再生材料,更环保

新款 AirTag 已正式开售。售价方面,单件装售价 249 元,四件装售价 849 元,并提供免费镌刻服务。零售店将于本周晚些时候陆续上架。

与此同时,苹果今天还推送了 iOS、iPadOS 和 watchOS 26.2.1,主要更新内容是新增对 AirTag 2 的支持。

( @APPSO)

2、京东「抢跑」淘宝,首款智能眼镜购物应用落地乐奇 Rokid

图片

图片

1 月 26 日消息,京东科技购物智能体 JoyGlance 正式登录智能眼镜品牌乐奇 Rokid,标志着行业首款智能眼镜购物应用正式落地,是京东布局「具身智能消费场景」的关键一步。

用户只需将 Rokid 眼镜系统更新至最新版本,应用由京东自研大模型 JoyAI 驱动,深度融合 Rokid 在光波导显示、远场语音交互与自研操作系统上的硬件能力,将传统网购流程从「搜索—浏览—比价—下单—支付」五步,压缩为极简的「说、看、付」三步

据悉,2025 年 10 月,Rokid 乐奇与京东科技就达成战略协议。此次携手,不仅是技术突破,更是消费入口的迁移,开启全球首个「所见即购买」的智能眼镜全链路购物入口,实现「目光所及、皆可购买」

当购物从「指尖滑动」转向「目光注视」,智能眼镜正从可穿戴设备升级为下一代空间计算与消费交互终端。用户不再依赖搜索框或直播链接,而是将物理世界直接转化为购物入口,或为电商行业开辟了全新的场景。

(@ 即智 Ultra)

3、LiveTok 发布「LiveTok Avatars」:支持单张照片生成实时交互式 AI 数字孪生

图片

LiveTok 推出基于 AI 的虚拟助手平台「LiveTok Avatars」。该产品支持通过单张静态照片构建具备实时音视频交互能力的数字分身,旨在通过拟人化的「数字孪生」替代传统文字客服,实现 24/7 的实时客户互动。

  • 单图驱动数字孪生:用户仅需上传单张人物照片,AI 即可生成具备面部动态的克隆形象,无需复杂的视频采集。

  • 行为与语调克隆:AI 模型通过学习可复刻特定个体的说话风格、语速及特定动作习惯,提供具备自然停顿的类人语音响应。

  • 低代码 Web 集成:支持通过嵌入数行代码直接在网站部署,无需复杂的后端环境配置。

  • 实时音视频同步:提供低延迟的实时语音对话环境,演示版本目前支持单次最高 2 分钟的交互。

目前处于 Beta 测试阶段,提供免费起步版,特定「数字孪生」功能需申请加入 Waitlist。

相关链接:

https://www.livetok.ai/products/avatars

( @LiveTok)

4、阶跃星辰获超 50 亿人民币融资,印奇出任董事长

图片

昨天,大模型创业公司阶跃星辰(StepFun)完成超 50 亿人民币 B+ 轮融资,创下过去 12 个月大模型赛道单笔最高融资纪录。上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资方参与本轮融资,腾讯、启明、五源等老股东继续加码。本轮资金将主要用于基础模型研发,并加速「AI + 终端」战略落地。

同日,阶跃星辰宣布千里科技董事长印奇正式出任公司董事长,全面负责公司战略节奏与技术方向。印奇此前已深度参与阶跃星辰的战略规划,其加入被视为公司在大模型「季后赛」阶段强化产业落地能力的关键一步。

这笔融资规模不仅超过月之暗面此前宣布的 5 亿美元 C 轮,也高于智谱与 MiniMax IPO 募资额,成为近期 AI 资本市场最受关注的事件之一。

过去两年间,该团队在「百模大战」中突围,跻身国内大模型第一梯队,并持续坚持预训练路线,构建了覆盖语言、多模态、音频、动作等方向的完整模型矩阵。

印奇的加入补足了阶跃星辰在产业落地上的关键能力。作为旷视科技联合创始人,印奇在 AIoT、城市级物联网系统等领域拥有丰富经验,其长期关注的「AI+ 终端」路径也与阶跃星辰的战略方向高度一致。

  • 在商业化方面,阶跃星辰已与国内六成头部智能手机品牌达成深度合作,模型装机量突破 4200 万台,覆盖 OPPO、荣耀、中兴等品牌,日均服务用户达 2000 万人次;

  • 在汽车领域,公司与千里科技、吉利合作,将端到端语音模型集成至智能座舱系统,吉利银河 M9 上市 3 个月销量接近 4 万辆,阶跃星辰今年的车载模型装车目标为百万级;

  • 在技术路线方面,阶跃星辰坚持「原生多模态」策略,直接从图文交错语料进行端到端训练,以提升模型对物理世界的理解能力。其音频模型 Step-Audio-R1.1 通过 MGRD 技术在权威榜单 Artificial Analysis 上取得全球第一。

印奇的加入意味着阶跃星辰将加速推进「AI 进入物理世界」的战略,并在手机、汽车等消费终端形成更具确定性的商业闭环。

( @APPSO)

03 有态度的观点 

1、俞敏洪:AI 或消灭大量教师岗位,中小学教师「一大半是不合格的」

图片

据快科技报道,新东方创始人俞敏洪近日在今年崇礼论坛上围绕互联网与人工智能对教育行业的影响发表最新观点。

他指出,技术变革正推动教育从「一张嘴一块黑板」到「互联网 + 教育」,再迈向「AI + 教育」,并强调这一趋势将深刻改变教师岗位结构。

俞敏洪表示,互联网仍在人类可控范围内,但其带来的舆论放大效应已深刻影响个人生活。他提到,过去三年遭遇的网暴与互联网环境密切相关。

相比之下,人工智能的影响更具结构性,其在教育、医疗、生物等领域的应用将持续扩大。

在教育场景中,他认为 AI 已能完成接近 100% 的英语交流与作业批改,不仅提升效率,也减轻学生面对老师时的心理压力。他指出,AI 的普及可能会「消灭大量老师岗位」,因为基础知识传递正被技术快速替代。

他进一步强调,未来教师的核心价值将转向激发学生潜能、塑造人格与引导成长,这些能力无法被技术替代。

按照这一标准,他直言目前国内中小学教师「一大半不合格」,部分教师面对学生提问时因无法回答而迁怒学生的现象亟需改善。

俞敏洪还回顾新东方在「互联网 + 教育」时代的结构性变化:互联网放大名师影响力,使大量优秀教师离开线下课堂,包括他本人也不再走进教室授课。

他认为,AI 的到来将带来更深层次的行业重塑,对教师提出更高要求,而这些要求比以往更难达到。

他强调,人工智能的最终走向取决于使用者,而非技术本身,教育行业需要在技术变革中重新定义教师角色与价值。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册