开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阿里通义 Qwen3-MT：92+ 语言互译的顶级 AI 翻译引擎

阿里巴巴通过其 Qwen API 正式发布最新一代多语言机器翻译模型 Qwen3-MT。Qwen3-MT 经过数万亿多语言语料训练，可支持 92 种语言，覆盖全球 95% 以上的人口。

Qwen3-MT 基于阿里巴巴自研的 Qwen3 Transformer 架构，结合轻量级的「专家混合」（Mixture-of-Experts， MoE）设计，优化了计算效率及深层上下文理解能力。模型通过多领域、多语种的庞大语料库训练，包括正式的法律文书、学术文献，到日常对话乃至技术专业文档，覆盖不同语言语法、语义、成语及文化背景。

支持的 92 种语言横跨关键语言家族，包括印欧语系（如英语、法语、德语、印地语）、汉藏语系（如中文、缅甸语）、闪含语系（如阿拉伯语、希伯来语）、南岛语系（如印尼语、菲律宾语）、达罗毗荼语系（如泰米尔语、泰卢固语）以及其他广受使用的亚洲与非洲语言（如日语、韩语、斯瓦希里语）。

在多项国际翻译基准测试中（如 WMT24、汉英与英德翻译任务），Qwen3-MT 的 BLEU 分数稳居领先水平，与高配大型模型（如 GPT-4.1 和 Gemini-2.5-Pro）表现相当，但在算力成本和延迟方面更具优势。此外，通过三盲法的人类评估显示，Qwen3-MT 的翻译在接受率与卓越率方面持续表现优异。

通过 MoE 架构的分布式路由优化，Qwen3-MT 实现了超低延迟，适用于实时交互场景（如直播翻译与在线聊天）；其高并发能力让它能高效处理成千上万的并行请求，为 SaaS、大型电商及媒体平台等提供坚实支持。

目前，开发者可在阿里云「百炼平台」使用 Qwen-MT。

相关链接：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen-mt-turbo（@AI 之星网、@AI 星球视界）

2、腾讯混元发布业界首个 3D 世界生成模型并全面开源

腾讯混元在 2025 世界人工智能大会上重磅推出 Hunyuan 3D World Model 1.0，这是业界首个支持沉浸式漫游、实时交互及物理仿真的世界生成模型，并宣布全面开源。

混元 3D 世界模型 1.0 融合了全景视觉生成与分层 3D 重建技术，同时支持文字和图片输入，实现了高质量、风格多样的可漫游 3D 场景生成。

据悉，混元 3D 世界模型 1.0 的核心还在于其创新的「语意层次化 3D 场景表征及生成算法」。该算法将复杂 3D 世界解构为不同语意层级，实现前景与背景、地面与天空的智能分离，不仅生成视觉效果逼真的整体场景，还能输出标准化的 3D Mesh 资产，兼容 Unity、Unreal Engine、Blender 等主流工具。

与全球领先的开源模型相比，混元 3D 世界模型 1.0 在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前 SOTA 的开源模型。

值得一提的是，除本次发布即开源的混元 3D 世界模型 1.0，混元还将在月底开源一系列小尺寸模型，包含 0.5B、1.8B、4B、7B 混合推理模型。在 LMArena Vision 榜单拿下国内第一的多模态理解模型混元-large-vision，以及专为游戏场景优化的交互式游戏视频生成框架混元 GameCraft 等也将于近期对外开源。

GitHub 仓库：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

官方主页：https://3d-models.hunyuan.tencent.com/world/

在线体验：https://3d.hunyuan.tencent.com/sceneTo3D（@APPSO、@ 三花 AI）

3、智谱正式发布最新旗舰模型 GLM-4.5，专为 Agent 应用打造

智谱正式发布最新旗舰模型 GLM-4.5。按照智谱官方说法，这是一款专为 Agent 应用打造的基础模型。

具体来看，GLM-4.5 采用混合专家（MoE）架构，3550 亿总参数/320 亿激活参数；另外还有一个轻量化一点的版本——GLM-4.5-Air：总参数量 1060 亿，激活参数为 120 亿。

两个版本均支持混合推理模式：用于复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。并且两个版本均已全面开源，支持 MIT License。

性能表现上，GLM-4.5 在推理、代码、智能体综合能力达到开源模型 SOTA 水平。结果综合平均分，GLM-4.5 交出了一份全球模型第三、国产模型第一、开源模型第一的成绩单。

此外，GLM-4.5 在成本和效率上的突破可能更具杀伤力。API 调用价格低至输入 0.8 元/百万 tokens，输出 2 元/百万 tokens，同时，高速版本实测生成速度最高可至 100 tokens/秒，支持低延迟、高并发的实际部署需求。

延续一贯的开源原则，目前 GLM-4.5 已经在 Hugging Face 与 ModelScope 平台同步开源，模型权重遵循 MIT License。

另外，API 也已上线开放平台，一键兼容 Claude Code 框架。普通用户也可以上智谱清言和 Z.ai 体验满血版 GLM-4.5。

02 有亮点的产品

1、金山办公发布原生 Office 智能体，支持 AI PPT、语音助手、WPS 知识库等办公服务

在 2025 世界人工智能大会期间，金山办公发布了 WPS AI 3.0 版本，推出原生 Office 智能体 WPS 灵犀。

该产品集成于 WPS Office 内部，支持用户通过自然语言与 AI 多轮对话，完成文档编辑、PPT 生成、资料总结和图片生成等任务，无需跳转外部工具。除灵犀外，金山办公还同步推出了「WPS 知识库」，用于将用户的历史文档构建为可检索、可复用的个人知识体系。

作为 WPS AI 3.0 的旗舰能力，「WPS 灵犀」不仅可理解用户指令、持续上下文对话，还支持主动任务推荐、语义级内容生成，具备「思考」和「理解」能力。其多模态交互设计也进一步拉近了人机协作的距离。

另外，现场还展示了 AI PPT、语音助手、WPS 知识库等办公服务：

AI PPT 引入了全新的 PPT 创作模式，用户能在与 AI 对话中边聊边修改 PPT 大纲，还能二次精调模板、单页和版式；
灵犀语音助手带来了移动办公场景下的 AI 对话与文档处理能力。用户在手机端直接与 AI 语音交流，像与文档「聊天」一样，就能快速获取文档要点和全网信息；
WPS 知识库能将用户的云文档升级为知识库，用户可以在 WPS 知识库上搜答案、筛数据，基于私域知识写方案、写稿子、写汇报，解决知识碎片化检索、应用和分享难题。

值得一提的是，WPS 灵犀已获评 2025 世界人工智能大会「镇馆之宝」奖项，并在金山办公展区展示。（@ 趣味科技 V、@AI 星球视界）

2、阿里自研 AI 眼镜亮相，支持高德地图导航、淘宝比价、支付宝扫码支付等

7 月 26 日，2025 世界人工智能大会（WAIC）首日，此前处于严格保密状态的「夸克 AI 眼镜」首度以完整形态亮相，并公开其技术研发进展。

据悉，夸克 AI 眼镜已完成产品开发，预计将在年内正式发布。它将深度融合阿里及支付宝生态，具备通义千问大模型的能力，搭载夸克最新的 AI 搜索和问答技术，还支持高德地图导航、淘宝比价、支付宝扫码支付、飞猪行程提醒等功能。阿里方面称，这款眼镜将成为「人类的第二双眼与耳」，是下一代人机交互的「感官中枢」。

具体来看，开发团队与高德联合开发了适配眼镜的近眼显示系统，在导航场景中，可实现骑行、步行过程中的精准指引；而视觉问答、学习办公等能力的原生适配，也意味着这不再是只能拍照、听音乐的「玩具型设备」，而是一款真正意义上的随身 AI 超级助理。

硬件上，夸克 AI 眼镜采用双光机显示，合像距可调；支持双电池更换，拥有双芯片双系统（包含一颗第一代高通骁龙 AR1 平台）；支持 Super RAW 超级暗光增强拍摄，配备精准视频防抖和云端 AI 增强算法。

这次项目由阿里智能信息事业群终端业务负责人宋刚主导。他指出，AI 眼镜会是智能穿戴领域最重要的产品形态，「全场景的业务覆盖和领先的 AI 能力正是阿里巴巴最擅长的。」（@APPSO、@ 智东西）

3、宇树发布第三款人形机器人 Unitree R1，集成语音与图像多模态大模型

宇树科技正式发布其第三款人形机器人产品——Unitree R1。

据悉，这款机器人起售价为 3.99 万元，支持开发和改装，整机重量约 25 公斤，集成语音与图像多模态大模型，主打轻量化与高灵活性。

R1 可完成多种高难度动作：翻跟斗、倒立行走、快速下坡奔跑，以及打拳踢腿等对抗动作，虽然有些踉跄，但整体动作相对流畅自然。(@APPSO)

03 有态度的观点

1、AI 教父呼吁全球合作：让 AI 既超凡又甘于助人

据新华社报道，诺贝尔奖得主、人工智能教父 Geoffrey Hinton 在 2025 世界人工智能大会上，发表题为《数字智能是否会取代生物智能》的演讲，同时这也是 Hinton 中国首次演讲。

演讲中，Hinton 回顾过去 60 年人工智能发展历程中的两种范式，一种是逻辑型，认为智能的本质是推理，以规则操纵符号表达即可实现；另一种以生物为基础，认为智能的关键在于神经网络的连接。

Hinton 表示，根据符号人工智能理论，句子可转化为精确的逻辑表达式，但他认为实际上人们不是这样理解句子。

他以乐高积木为喻，阐释词语的动态组合：

用乐高积木可搭建出任何形状，其组合维度可达上千种，这本质是一种建模，语言也是如此。

值得一提的是，Hinton 在演讲中表示，计算机科学有软硬之分，即便硬件毁灭，软件中的知识永存，且分享方便。而人类知识传播效率低，如通过讲话每秒最多传递约 100 比特的信息。若能源便宜，数字计算优势更明显。

「这引发我的深切忧虑。人类已习惯作为顶级智能存在，很难想象被更高级智能主导。就像饲养虎崽作为宠物，我们必须确保其成年后不会反噬。」辛顿说，人工智能在医疗、教育、气候变化等领域的价值不可替代，单方面禁用人工智能不现实，建议各国自主开发人工智能技术，但共享「保持人工智能良性」的研究成果。

Hinton 说，训练超级人工智能时，如何能让它既拥有超凡智慧，又甘于辅助人类，这是值得全球通力合作的重大议题。(@APPSO)

2、小米 AI 眼镜三年目标：年出货量超五百万

日前，小米 AI 眼镜项目负责人李创奇接受了搜狐科技的采访，前者在对话中透露了小米 AI 眼镜的立项、发展，乃至定下目标。

据李创奇透露，小米首款 AI 眼镜是在去年 6 月得到了创始人雷军的认可，并且立项成功。李创奇表示，自己先后两次申请 AI 眼镜立项，第二次是「求」到老板雷军面前，说服雷军知道「小米应该做这个事，我（李创奇）想做这个事。」

在李创奇看来，眼镜在全球本身就是一个万亿规模的市场，智能眼镜远大于这个规模，不善于做内容的小米，如果加上 AI，这将成为一个新的入口机会，不能错过。

李创奇表示，在雷军同意并下令推进小米 AI 眼镜后，项目推进的效率就变得很高。仅在一年后，小米首款 AI 眼镜就在人车家全生态发布会上亮相。

对于产品本身，李创奇透露称，为了让这个项目在有限的时间尽可能成功，几乎都选择了最贵的元器件。尽管现在 1999 元的价格有毛利，但对于整体的投入来说，依然是亏本的。

另外，李创奇还表示，希望三年内，能有机会借助小米平台推动智能眼镜产业链向前多走一步，届时小米 AI 眼镜的年出货量可能超过五百万，中国已经有 7 亿多的近视人群，智能眼镜的出货量可能会超五千万。(@APPSO)

更多 Voice Agent 学习笔记：

GPT-4o 之后，Voice 从 Assistant 到 Agent，新机会藏在哪些场景里？｜Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay：语音输入，如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao：传统软件开发是造桥，AI 开发更像酿酒，提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享：企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？

a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场

a16z 合伙人：语音交互将成为 AI 应用公司最强大的突破口之一，巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流