开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阿里通义 Qwen3-MT:92+ 语言互译的顶级 AI 翻译引擎

阿里巴巴通过其 Qwen API 正式发布最新一代多语言机器翻译模型 Qwen3-MT。Qwen3-MT 经过数万亿多语言语料训练,可支持 92 种语言,覆盖全球 95% 以上的人口。

Qwen3-MT 基于阿里巴巴自研的 Qwen3 Transformer 架构,结合轻量级的「专家混合」(Mixture-of-Experts, MoE)设计,优化了计算效率及深层上下文理解能力。模型通过多领域、多语种的庞大语料库训练,包括正式的法律文书、学术文献,到日常对话乃至技术专业文档,覆盖不同语言语法、语义、成语及文化背景。

支持的 92 种语言横跨关键语言家族,包括印欧语系(如英语、法语、德语、印地语)、汉藏语系(如中文、缅甸语)、闪含语系(如阿拉伯语、希伯来语)、南岛语系(如印尼语、菲律宾语)、达罗毗荼语系(如泰米尔语、泰卢固语)以及其他广受使用的亚洲与非洲语言(如日语、韩语、斯瓦希里语)。

在多项国际翻译基准测试中(如 WMT24、汉英与英德翻译任务),Qwen3-MT 的 BLEU 分数稳居领先水平,与高配大型模型(如 GPT-4.1 和 Gemini-2.5-Pro)表现相当,但在算力成本和延迟方面更具优势。此外,通过三盲法的人类评估显示,Qwen3-MT 的翻译在接受率与卓越率方面持续表现优异。

通过 MoE 架构的分布式路由优化,Qwen3-MT 实现了超低延迟,适用于实时交互场景(如直播翻译与在线聊天);其高并发能力让它能高效处理成千上万的并行请求,为 SaaS、大型电商及媒体平台等提供坚实支持。

目前,开发者可在阿里云「百炼平台」使用 Qwen-MT。

相关链接:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen-mt-turbo(@AI 之星网、@AI 星球视界)

2、腾讯混元发布业界首个 3D 世界生成模型并全面开源

腾讯混元在 2025 世界人工智能大会上重磅推出 Hunyuan 3D World Model 1.0,这是业界首个支持沉浸式漫游、实时交互及物理仿真的世界生成模型,并宣布全面开源。

混元 3D 世界模型 1.0 融合了全景视觉生成与分层 3D 重建技术,同时支持文字和图片输入,实现了高质量、风格多样的可漫游 3D 场景生成。

据悉,混元 3D 世界模型 1.0 的核心还在于其创新的「语意层次化 3D 场景表征及生成算法」。该算法将复杂 3D 世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离,不仅生成视觉效果逼真的整体场景,还能输出标准化的 3D Mesh 资产,兼容 Unity、Unreal Engine、Blender 等主流工具。

与全球领先的开源模型相比,混元 3D 世界模型 1.0 在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前 SOTA 的开源模型。

值得一提的是,除本次发布即开源的混元 3D 世界模型 1.0,混元还将在月底开源一系列小尺寸模型,包含 0.5B、1.8B、4B、7B 混合推理模型。在 LMArena Vision 榜单拿下国内第一的多模态理解模型混元-large-vision,以及专为游戏场景优化的交互式游戏视频生成框架混元 GameCraft 等也将于近期对外开源。

GitHub 仓库:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

官方主页:https://3d-models.hunyuan.tencent.com/world/

在线体验:https://3d.hunyuan.tencent.com/sceneTo3D(@APPSO、@ 三花 AI)

3、智谱正式发布最新旗舰模型 GLM-4.5,专为 Agent 应用打造

智谱正式发布最新旗舰模型 GLM-4.5。按照智谱官方说法,这是一款专为 Agent 应用打造的基础模型。

具体来看,GLM-4.5 采用混合专家(MoE)架构,3550 亿总参数/320 亿激活参数;另外还有一个轻量化一点的版本——GLM-4.5-Air:总参数量 1060 亿,激活参数为 120 亿。

两个版本均支持混合推理模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。并且两个版本均已全面开源,支持 MIT License。

性能表现上,GLM-4.5 在推理、代码、智能体综合能力达到开源模型 SOTA 水平。结果综合平均分,GLM-4.5 交出了一份全球模型第三、国产模型第一、开源模型第一的成绩单。

此外,GLM-4.5 在成本和效率上的突破可能更具杀伤力。API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens,同时,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求。

延续一贯的开源原则,目前 GLM-4.5 已经在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。

另外,API 也已上线开放平台 ,一键兼容 Claude Code 框架。普通用户也可以上智谱清言和 Z.ai 体验满血版 GLM-4.5。

相关链接:https://bigmodel.cn/

相关链接:https://chatglm.cn/(@APPSO

4、GPT-5「Lobster」疑似现身 WebDev Arena

GPT-5「Lobster」疑似现身 WebDev Arena。WebDev Arena 是一个大模型能力匿名评测的网站,使用相同的提示词,在双盲的情况下,给你认为最好的模型投票。

Lisan al Gaib 在实测中捕捉了 GPT-5,并且用同样的提示词,GPT-5 生成的页面效果非常惊艳(左边是 GPT-5,右边 Grok-4)

此外,GPT-5 其他版本的代号也疑似曝光。

与此同时,Reddit 网友发现,OpenAI 现在正在将所有 o3 请求秘密地转接到 GPT-5 上处理。

甚至,有网友表示,已经有非科技行业的员工已经获得了 GPT-5 预览版的访问权限。

据悉,GPT-5 旨在实现奥特曼的一项计划:将传统的 GPT 系列大模型与 o 系列推理模型,整合进一个统一的模型界面中。

GPT-5 跟 Anthropic 的混合式 Claude 模型类似。

相关链接:https://x.com/scaling01/status/1948878978699460808(@ 新智元)

5、阶跃星辰上线新一代基础大模型:Step 3,推理提升

WAIC 2025 期间,阶跃星辰上线了新一代的基础大模型——Step 3。

作为阶跃的主力基座模型,Step 3 兼顾智能与效率,旨在面向推理时代打造最适合应用的模型。Step 3 将于 7 月 31 日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。

Step 3 是阶跃星辰首个全尺寸、原生多模态推理模型,兼顾模型效果与推理成本,是在模型架构创新、算法工程协同设计上的一次大胆尝试与 Scale Up。Step 3 采用 MoE 架构,总参数量 321B,激活参数量 38B。

Step 3 拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。

Step 3 在 MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench( 2024.08-2025.05)等榜单上取得了开源多模态推理模型的 SOTA 成绩。(@Founder Park)

02 有亮点的产品

1、金山办公发布原生 Office 智能体,支持 AI PPT、语音助手、WPS 知识库等办公服务

在 2025 世界人工智能大会期间,金山办公发布了 WPS AI 3.0 版本,推出原生 Office 智能体 WPS 灵犀。

该产品集成于 WPS Office 内部,支持用户通过自然语言与 AI 多轮对话,完成文档编辑、PPT 生成、资料总结和图片生成等任务,无需跳转外部工具。除灵犀外,金山办公还同步推出了「WPS 知识库」,用于将用户的历史文档构建为可检索、可复用的个人知识体系。

作为 WPS AI 3.0 的旗舰能力,「WPS 灵犀」不仅可理解用户指令、持续上下文对话,还支持主动任务推荐、语义级内容生成,具备「思考」和「理解」能力。其多模态交互设计也进一步拉近了人机协作的距离。

另外,现场还展示了 AI PPT、语音助手、WPS 知识库等办公服务:

值得一提的是,WPS 灵犀已获评 2025 世界人工智能大会「镇馆之宝」奖项,并在金山办公展区展示。(@ 趣味科技 V、@AI 星球视界)

2、阿里自研 AI 眼镜亮相,支持高德地图导航、淘宝比价、支付宝扫码支付等

7 月 26 日,2025 世界人工智能大会(WAIC)首日,此前处于严格保密状态的「夸克 AI 眼镜」首度以完整形态亮相,并公开其技术研发进展。

据悉,夸克 AI 眼镜已完成产品开发,预计将在年内正式发布。它将深度融合阿里及支付宝生态,具备通义千问大模型的能力,搭载夸克最新的 AI 搜索和问答技术,还支持高德地图导航、淘宝比价、支付宝扫码支付、飞猪行程提醒等功能。阿里方面称,这款眼镜将成为「人类的第二双眼与耳」,是下一代人机交互的「感官中枢」。

具体来看,开发团队与高德联合开发了适配眼镜的近眼显示系统,在导航场景中,可实现骑行、步行过程中的精准指引;而视觉问答、学习办公等能力的原生适配,也意味着这不再是只能拍照、听音乐的「玩具型设备」,而是一款真正意义上的随身 AI 超级助理。

硬件上,夸克 AI 眼镜采用双光机显示,合像距可调;支持双电池更换,拥有双芯片双系统(包含一颗第一代高通骁龙 AR1 平台);支持 Super RAW 超级暗光增强拍摄,配备精准视频防抖和云端 AI 增强算法。

这次项目由阿里智能信息事业群终端业务负责人宋刚主导。他指出,AI 眼镜会是智能穿戴领域最重要的产品形态,「全场景的业务覆盖和领先的 AI 能力正是阿里巴巴最擅长的。」(@APPSO、@ 智东西)

3、宇树发布第三款人形机器人 Unitree R1,集成语音与图像多模态大模型

宇树科技正式发布其第三款人形机器人产品——Unitree R1。

据悉,这款机器人起售价为 3.99 万元,支持开发和改装,整机重量约 25 公斤,集成语音与图像多模态大模型,主打轻量化与高灵活性。

R1 可完成多种高难度动作:翻跟斗、倒立行走、快速下坡奔跑,以及打拳踢腿等对抗动作,虽然有些踉跄,但整体动作相对流畅自然。(@APPSO)

03 有态度的观点

1、AI 教父呼吁全球合作:让 AI 既超凡又甘于助人

据新华社报道,诺贝尔奖得主、人工智能教父 Geoffrey Hinton 在 2025 世界人工智能大会上,发表题为《数字智能是否会取代生物智能》的演讲,同时这也是 Hinton 中国首次演讲。

演讲中,Hinton 回顾过去 60 年人工智能发展历程中的两种范式,一种是逻辑型,认为智能的本质是推理,以规则操纵符号表达即可实现;另一种以生物为基础,认为智能的关键在于神经网络的连接。

Hinton 表示,根据符号人工智能理论,句子可转化为精确的逻辑表达式,但他认为实际上人们不是这样理解句子。

他以乐高积木为喻,阐释词语的动态组合:

用乐高积木可搭建出任何形状,其组合维度可达上千种,这本质是一种建模,语言也是如此。

值得一提的是,Hinton 在演讲中表示,计算机科学有软硬之分,即便硬件毁灭,软件中的知识永存,且分享方便。而人类知识传播效率低,如通过讲话每秒最多传递约 100 比特的信息。若能源便宜,数字计算优势更明显。

「这引发我的深切忧虑。人类已习惯作为顶级智能存在,很难想象被更高级智能主导。就像饲养虎崽作为宠物,我们必须确保其成年后不会反噬。」辛顿说,人工智能在医疗、教育、气候变化等领域的价值不可替代,单方面禁用人工智能不现实,建议各国自主开发人工智能技术,但共享「保持人工智能良性」的研究成果。

Hinton 说,训练超级人工智能时,如何能让它既拥有超凡智慧,又甘于辅助人类,这是值得全球通力合作的重大议题。(@APPSO)

2、小米 AI 眼镜三年目标:年出货量超五百万

日前,小米 AI 眼镜项目负责人李创奇接受了搜狐科技的采访,前者在对话中透露了小米 AI 眼镜的立项、发展,乃至定下目标。

据李创奇透露,小米首款 AI 眼镜是在去年 6 月得到了创始人雷军的认可,并且立项成功。李创奇表示,自己先后两次申请 AI 眼镜立项,第二次是「求」到老板雷军面前,说服雷军知道「小米应该做这个事,我(李创奇)想做这个事。」

在李创奇看来,眼镜在全球本身就是一个万亿规模的市场,智能眼镜远大于这个规模,不善于做内容的小米,如果加上 AI,这将成为一个新的入口机会,不能错过。

李创奇表示,在雷军同意并下令推进小米 AI 眼镜后,项目推进的效率就变得很高。仅在一年后,小米首款 AI 眼镜就在人车家全生态发布会上亮相。

对于产品本身,李创奇透露称,为了让这个项目在有限的时间尽可能成功,几乎都选择了最贵的元器件。尽管现在 1999 元的价格有毛利,但对于整体的投入来说,依然是亏本的。

另外,李创奇还表示,希望三年内,能有机会借助小米平台推动智能眼镜产业链向前多走一步,届时小米 AI 眼镜的年出货量可能超过五百万,中国已经有 7 亿多的近视人群,智能眼镜的出货量可能会超五千万。(@APPSO)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流