开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、ETH 等发布 Apertus 开源大模型:15 万亿 token 训练,支持 1000+ 语言

EPFL、ETH Zurich 与瑞士国家超级计算中心 CSCS 联合发布了 Apertus,这是瑞士首个大规模开放多语言大语言模型。Apertus 源自拉丁语「开放」,其核心理念是「完全开放」,模型的架构、权重、训练数据及训练配方都进行了完整公开和记录。

该模型提供 8B 和 70B 两种参数版本,均基于宽松的开源许可证发布。Apertus 已在 15 万亿 token 上进行训练,覆盖超过 1000 种语言,其中 40% 为非英语数据,特别包含了瑞士德语、罗曼什语等在主流模型中较为罕见的语言。

目前,Apertus 可通过战略伙伴 Swisscom 的瑞士主权 AI 平台、Hugging Face 及 Public AI 网络公开发布。Swisscom 将在即将举行的 Swiss {ai} Weeks 黑客松期间向开发者提供专用接口,而普通商业用户即日起即可在其平台上调用。Public AI 则将 Apertus 作为公共基础设施向全球用户开放。

研究团队同步公开了训练流程的全部文档、源代码、中间检查点及数据保护输出过滤文件,并严格遵循瑞士数据保护法、瑞士版权法以及欧盟 AI 法案的透明度义务。未来版本计划扩展模型家族,提升效率,并探索在法律、气候、健康、教育等垂直领域的专用化应用,同时保持高标准的透明与合规。

相关链接:

(@ 橘鸭 Juya)

2、腾讯混元 Voyager 开源:斯坦福评测夺冠,首创原生 3D 重建与超长漫游能力

腾讯混元正式发布并完全开源 HunyuanWorld-Voyager,这是业界首个支持原生 3D 重建的超长漫游世界模型。该模型在斯坦福大学李飞飞团队发布的 WorldScore 基准测试中综合能力排名第一,其视频生成与 3D 重建两项任务均领先于现有的开源方法。

HunyuanWorld-Voyager 基于 HunyuanWorld 1.0 架构,创新地将视频生成与 3D 建模相融合,能够直接输出点云视频并导出为通用的 3D 格式,无需依赖 COLMAP 等额外的重建工具。模型引入了可扩展的世界缓存机制,利用初始 3D 点云缓存投影到目标相机视图,为扩散模型提供引导,并在生成过程中实时更新缓存,形成闭环,从而确保在任意相机轨迹下的几何一致性。

用户可以通过键盘或摇杆控制相机,实时生成高保真的 RGB-D 序列。输出的点云可直接用于 3D 应用,支持 3D 物体纹理生成、视频场景重建、风格化编辑与深度估计等多种功能。该模型对 HunyuanWorld 1.0 具有良好的兼容性,能够扩展其漫游范围并提升复杂场景的生成质量。

项目主页、代码仓库与技术报告均已公开,用户可在项目主页、GitHub 与 Hugging Face 免费获取。

相关链接:

https://3d-models.hunyuan.tencent.com/world/

(@ 橘鸭 Juya)

3、Krea 发布实时视频生成功能:12fps 帧率 +4 种交互方式,定义「世界模型」新体验

Krea 宣布开放其实时视频生成功能的候补名单。该系统能够以超过 12 fps 的帧率进行实时生成,实现了「生成速度超过播放速度」的即时反馈。同时,系统能在帧间保持出色的时间一致性,确保动作、身份与风格的稳定。

用户可以通过四种不同的输入方式与系统进行交互:在画布上直接绘制、输入文本提示、接入摄像头实时画面或共享屏幕内容。该系统基于现代的 world model 思路研发,通过学习场景的演化规律以及动作在时间中的连锁反应,实现了既快速又连贯的交互体验。目前,该功能已开启候补申请,Krea 团队将在本周内陆续向候补用户开放使用权限。

相关链接:

https://www.krea.ai/blog/announcing-realtime-video

(@ 橘鸭 Juya)

4、NotebookLM 新增音频概览格式:新增专家点评与辩论功能

NotebookLM 正在推出四种全新的音频概览格式。默认的 Deep Dive 模式提供对上传资料的深入剖析;Brief 模式用约 1–2 分钟的短音频给出精炼概览;Critique 模式以专家视角对材料进行建设性点评;而 Debate 模式则由两位主持人展开观点对谈。

相关链接:

https://x.com/NotebookLM/status/1962949985546187120

(@ 橘鸭 Juya)


###

02 有亮点的产品

1、米哈游创始人蔡浩宇新作《星之低语》上线遇冷,玩家在线数不足千人

米哈游创始人蔡浩宇(身价超 500 亿)创立的 Anuttacon 公司推出首款 AI 游戏《Whisper from the Stars》(星之低语),Steam 首发价 27 元。尽管团队豪华(成员来自米哈游、微软、Meta 等),但上线首日峰值在线仅 964 人,一周后跌至 139 人,远未达「爆款」预期。

玩家评价:许多玩家欣赏其人工智能技术的自然互动和人物情绪表现,认为这种实时互动带来了新鲜感。部分玩家认为游戏玩法单一缺乏长期吸引力,容易陷入「有话聊但无事做」的状态。同时,作为一款依赖云技术实现渲染的 AI 游戏,其巨大的运营成本也给 Anuttacon 带来了盈利模式的挑战。

尽管如此,《星之低语》的发布仍然被视为 AI 游戏领域的一次重要尝试,展示了 AI 技术在游戏叙述和交互方面的巨大潜力。正如蔡浩宇所言,AI 正在酝酿游戏世界,但真正的「AI 游戏奇点」亟待建立模型的进一步突破。(@ 搜狐科技)

2、集成 MAI-Voice-1,微软推出 Copilot Audio Expressions 语音生成工具

微软最新推出的实验性工具 Copilot Audio Expressions,通过其 MAI-Voice-1 模型,突破了传统 TTS 的限制,实现了能够自动添加情感、语气甚至环境音的逼真语音生成。这款工具通过两种模式,为用户提供了全新的 AI 语音创作体验。

核心亮点

Copilot Audio Expressions 的推出对内容创作领域产生了不小的影响。它为短视频博主、教育机构、独立游戏开发者等提供了低成本、高质量的配音解决方案。尽管短期内 AI 难以完全取代专业配音演员对复杂情感的精准把控,但长期来看,它可能会分流基础的配音工作。

微软已表示,该项目未来将支持多语言(包括中文),并计划提供 API 接口,允许开发者将其集成到自己的应用或游戏中,同时会突破 90 秒的时长限制。(@AI 启元社)

3、ElevenLabs 发布 SFX 模型 v2,AI 音效生成再升级

#####

9 月 2 日,AI 音频研发公司 ElevenLabs 正式发布其音效生成模型(SFX 模型)v2 版本,引入了一系列技术升级,显著提升了音效生成的质量和功能。

本次更新旨在为影视制作、游戏开发、音频编辑等领域的创作者提供更强大的工具。 ElevenLabs 表示,SFX v2 模型的核心目标是通过 AI 技术实现高品质、自定义音效的快速生成,并进一步扩展其在多场景中的应用潜力。

技术亮点

采样率从 44.1kHz 升级至 48kHz,达到行业标准,显著改善音效细节和后期处理效果(如 EQ、混响等)。音效生成时长从 22 秒延长至 30 秒,给予创作者更多创作空间。

新增无缝循环音效生成能力,适用于背景音景(如雨声、海洋波浪、咖啡厅环境音)等长时间播放场景。例如,一段 30 秒的循环雨声可扩展为 11 分钟的音频,满足有声书、冥想应用或生产力工具的背景音需求。

SFX 库(SFX Library)正在进行重大扩展和重组,使用户更容易探索和使用。新增「收藏」功能,允许用户保存优质生成音效,并在 ElevenLabs Studio 中直接调用。支持通过提示词(Prompt)重混(Remix)已有音效,激发更多创意。

所有计划(包括免费计划)均支持 MP3 和 WAV 格式输出,方便不同场景的使用。

(@X\@ElevenLabs )

4、Sierra 获 3.5 亿美元融资,估值达 100 亿美元,深耕企业 AI 客服市场

据 Axios 援引消息人士报道,专注于为企业客户提供定制 AI 智能体解决方案的初创公司 Sierra,即将完成一轮 3.5 亿美元的融资,这笔交易将使其成立两年的公司估值达到 100 亿美元。


###

03 有态度的观点

1、凯叔犀利点评 AI 玩具乱象:拒绝「大模型套壳」,真正的 AI 玩具必须是解决方案

凯叔表示:当下许多 AI 玩具只是将大模型的能力通过硬件传递给用户,卖的是「token」,这不长远。他认为,真正的 AI 玩具必须是「解决方案」。

他将「陪伴」定义为一个过程,而非目的,重要的是过程中发生了什么。这种思路传递到了产品中。据凯叔介绍,AI 鸡飞飞,对于孩子和家长来说,承载了五大解决方案:

(@ 极客公园)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流