开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@ 鲍勃

01 有话题的技术

1、ETH 等发布 Apertus 开源大模型：15 万亿 token 训练，支持 1000+ 语言

EPFL、ETH Zurich 与瑞士国家超级计算中心 CSCS 联合发布了 Apertus，这是瑞士首个大规模开放多语言大语言模型。Apertus 源自拉丁语「开放」，其核心理念是「完全开放」，模型的架构、权重、训练数据及训练配方都进行了完整公开和记录。

该模型提供 8B 和 70B 两种参数版本，均基于宽松的开源许可证发布。Apertus 已在 15 万亿 token 上进行训练，覆盖超过 1000 种语言，其中 40% 为非英语数据，特别包含了瑞士德语、罗曼什语等在主流模型中较为罕见的语言。

目前，Apertus 可通过战略伙伴 Swisscom 的瑞士主权 AI 平台、Hugging Face 及 Public AI 网络公开发布。Swisscom 将在即将举行的 Swiss {ai} Weeks 黑客松期间向开发者提供专用接口，而普通商业用户即日起即可在其平台上调用。Public AI 则将 Apertus 作为公共基础设施向全球用户开放。

研究团队同步公开了训练流程的全部文档、源代码、中间检查点及数据保护输出过滤文件，并严格遵循瑞士数据保护法、瑞士版权法以及欧盟 AI 法案的透明度义务。未来版本计划扩展模型家族，提升效率，并探索在法律、气候、健康、教育等垂直领域的专用化应用，同时保持高标准的透明与合规。

相关链接：

https://www.swiss-ai.org/apertus
https://publicai.co/

（@ 橘鸭 Juya）

2、腾讯混元 Voyager 开源：斯坦福评测夺冠，首创原生 3D 重建与超长漫游能力

腾讯混元正式发布并完全开源 HunyuanWorld-Voyager，这是业界首个支持原生 3D 重建的超长漫游世界模型。该模型在斯坦福大学李飞飞团队发布的 WorldScore 基准测试中综合能力排名第一，其视频生成与 3D 重建两项任务均领先于现有的开源方法。

HunyuanWorld-Voyager 基于 HunyuanWorld 1.0 架构，创新地将视频生成与 3D 建模相融合，能够直接输出点云视频并导出为通用的 3D 格式，无需依赖 COLMAP 等额外的重建工具。模型引入了可扩展的世界缓存机制，利用初始 3D 点云缓存投影到目标相机视图，为扩散模型提供引导，并在生成过程中实时更新缓存，形成闭环，从而确保在任意相机轨迹下的几何一致性。

用户可以通过键盘或摇杆控制相机，实时生成高保真的 RGB-D 序列。输出的点云可直接用于 3D 应用，支持 3D 物体纹理生成、视频场景重建、风格化编辑与深度估计等多种功能。该模型对 HunyuanWorld 1.0 具有良好的兼容性，能够扩展其漫游范围并提升复杂场景的生成质量。

项目主页、代码仓库与技术报告均已公开，用户可在项目主页、GitHub 与 Hugging Face 免费获取。

3、Krea 发布实时视频生成功能：12fps 帧率 +4 种交互方式，定义「世界模型」新体验

Krea 宣布开放其实时视频生成功能的候补名单。该系统能够以超过 12 fps 的帧率进行实时生成，实现了「生成速度超过播放速度」的即时反馈。同时，系统能在帧间保持出色的时间一致性，确保动作、身份与风格的稳定。

用户可以通过四种不同的输入方式与系统进行交互：在画布上直接绘制、输入文本提示、接入摄像头实时画面或共享屏幕内容。该系统基于现代的 world model 思路研发，通过学习场景的演化规律以及动作在时间中的连锁反应，实现了既快速又连贯的交互体验。目前，该功能已开启候补申请，Krea 团队将在本周内陆续向候补用户开放使用权限。

4、NotebookLM 新增音频概览格式：新增专家点评与辩论功能

NotebookLM 正在推出四种全新的音频概览格式。默认的 Deep Dive 模式提供对上传资料的深入剖析；Brief 模式用约 1–2 分钟的短音频给出精炼概览；Critique 模式以专家视角对材料进行建设性点评；而 Debate 模式则由两位主持人展开观点对谈。

02 有亮点的产品

1、米哈游创始人蔡浩宇新作《星之低语》上线遇冷，玩家在线数不足千人

米哈游创始人蔡浩宇（身价超 500 亿）创立的 Anuttacon 公司推出首款 AI 游戏《Whisper from the Stars》（星之低语），Steam 首发价 27 元。尽管团队豪华（成员来自米哈游、微软、Meta 等），但上线首日峰值在线仅 964 人，一周后跌至 139 人，远未达「爆款」预期。

玩家评价：许多玩家欣赏其人工智能技术的自然互动和人物情绪表现，认为这种实时互动带来了新鲜感。部分玩家认为游戏玩法单一缺乏长期吸引力，容易陷入「有话聊但无事做」的状态。同时，作为一款依赖云技术实现渲染的 AI 游戏，其巨大的运营成本也给 Anuttacon 带来了盈利模式的挑战。

尽管如此，《星之低语》的发布仍然被视为 AI 游戏领域的一次重要尝试，展示了 AI 技术在游戏叙述和交互方面的巨大潜力。正如蔡浩宇所言，AI 正在酝酿游戏世界，但真正的「AI 游戏奇点」亟待建立模型的进一步突破。（@ 搜狐科技）

2、集成 MAI-Voice-1，微软推出 Copilot Audio Expressions 语音生成工具

微软最新推出的实验性工具 Copilot Audio Expressions，通过其 MAI-Voice-1 模型，突破了传统 TTS 的限制，实现了能够自动添加情感、语气甚至环境音的逼真语音生成。这款工具通过两种模式，为用户提供了全新的 AI 语音创作体验。

核心亮点

Emotive 模式：适用于需要情感表达的短音频，用户可以选择特定音色和叙述风格，生成最长 59 秒的音频。该模式会自动添加情感细节和措辞调整，让语音听起来更自然生动。
Story 模式：专为多角色叙事设计，用户只需提供一个主题提示（例如「猫在暗处潜行觅食的故事」），系统便会自动生成包含旁白和角色对白在内的最长 90 秒的音频，并能处理不同口音的互动，非常适合创意故事和游戏配音。
逼真度接近真人：借助 MAI-Voice-1 模型对海量真人语音数据的分析，Copilot Audio Expressions 能够学习并模仿人类在对话中自然的停顿、重音和情绪波动，从而避免了传统 TTS 的机械感。据实测，其生成的音频在自然度评分上能达到真人配音员的 90%。

Copilot Audio Expressions 的推出对内容创作领域产生了不小的影响。它为短视频博主、教育机构、独立游戏开发者等提供了低成本、高质量的配音解决方案。尽管短期内 AI 难以完全取代专业配音演员对复杂情感的精准把控，但长期来看，它可能会分流基础的配音工作。

微软已表示，该项目未来将支持多语言（包括中文），并计划提供 API 接口，允许开发者将其集成到自己的应用或游戏中，同时会突破 90 秒的时长限制。（@AI 启元社）

3、ElevenLabs 发布 SFX 模型 v2，AI 音效生成再升级

#####

9 月 2 日，AI 音频研发公司 ElevenLabs 正式发布其音效生成模型（SFX 模型）v2 版本，引入了一系列技术升级，显著提升了音效生成的质量和功能。

本次更新旨在为影视制作、游戏开发、音频编辑等领域的创作者提供更强大的工具。 ElevenLabs 表示，SFX v2 模型的核心目标是通过 AI 技术实现高品质、自定义音效的快速生成，并进一步扩展其在多场景中的应用潜力。

技术亮点

音质与采样率提升

采样率从 44.1kHz 升级至 48kHz，达到行业标准，显著改善音效细节和后期处理效果（如 EQ、混响等）。音效生成时长从 22 秒延长至 30 秒，给予创作者更多创作空间。

无缝循环音效功能

新增无缝循环音效生成能力，适用于背景音景（如雨声、海洋波浪、咖啡厅环境音）等长时间播放场景。例如，一段 30 秒的循环雨声可扩展为 11 分钟的音频，满足有声书、冥想应用或生产力工具的背景音需求。

用户界面与 API 优化

SFX 库（SFX Library）正在进行重大扩展和重组，使用户更容易探索和使用。新增「收藏」功能，允许用户保存优质生成音效，并在 ElevenLabs Studio 中直接调用。支持通过提示词（Prompt）重混（Remix）已有音效，激发更多创意。

多格式输出

所有计划（包括免费计划）均支持 MP3 和 WAV 格式输出，方便不同场景的使用。

(@X\@ElevenLabs )

4、Sierra 获 3.5 亿美元融资，估值达 100 亿美元，深耕企业 AI 客服市场

据 Axios 援引消息人士报道，专注于为企业客户提供定制 AI 智能体解决方案的初创公司 Sierra，即将完成一轮 3.5 亿美元的融资，这笔交易将使其成立两年的公司估值达到 100 亿美元。

市场定位与差异化： 当前 AI 智能体领域虽然热度不减，但行业对于其构建和部署路径仍未形成统一范式。Sierra 则另辟蹊径，专注于为企业客服和支持场景提供优化且高度专业的 AI 智能体解决方案，旨在满足企业客户服务领域日益增长的需求。
创始人团队背景： Sierra 的创始人阵容强大，包括前 Salesforce 联席 CEO、现 OpenAI 董事长 Bret Taylor，以及前 Google 高管 Clay Bavor。他们的丰富经验为 Sierra 的发展奠定了坚实基础。
融资历程与投资方： 这并非 Sierra 首次获得巨额融资。公司在去年 10 月已完成一轮 1.75 亿美元的融资，当时估值为 45 亿美元。与上一轮融资相同，本轮融资仍将由知名投资机构 Greenoaks Capital 领投。
财务与客户表现： 消息人士透露，Sierra 的企业年度经常性收入（ARR）有望突破 1 亿美元大关。公司在今年 6 月曾表示，已拥有数百家企业客户，其中 15% 的客户年收入超过 100 亿美元，50% 的客户年收入超过 10 亿美元，显示出其在服务大型企业客户方面的强大实力和市场认可度。(@Axios)

###

03 有态度的观点

1、凯叔犀利点评 AI 玩具乱象：拒绝「大模型套壳」，真正的 AI 玩具必须是解决方案

凯叔表示：当下许多 AI 玩具只是将大模型的能力通过硬件传递给用户，卖的是「token」，这不长远。他认为，真正的 AI 玩具必须是「解决方案」。

他将「陪伴」定义为一个过程，而非目的，重要的是过程中发生了什么。这种思路传递到了产品中。据凯叔介绍，AI 鸡飞飞，对于孩子和家长来说，承载了五大解决方案：

解决方案一：适龄沟通的智能对话功能，且终身免费。
解决方案二：以《口袋神探》数百个科学推理案件为素材，让孩子在与鸡飞飞共同破案的过程中，自然锻炼逻辑演绎与归纳能力。
解决方案三：彻底和凯叔讲故事的故事会员几万集内容打通。孩子可以通过语音呼唤出任何想听的内容。
解决方案四：智能家长端上线，家长可智能管理，了解孩子另一个维度的成长。
解决方案五：专属 AI 英语陪练。支持双语对话，可通过游戏、进阶式的互动，在聊天中提升英语水平。

（@ 极客公园）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流