AI测试 AI 客服 Sierra 再融资,估值达 100 亿美元;米哈游创始人游戏《星之低语》上线遇冷,玩家在线数不足千人丨日报

RTE开发者社区 · 2025年09月04日 · 221 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、ETH 等发布 Apertus 开源大模型:15 万亿 token 训练,支持 1000+ 语言

EPFL、ETH Zurich 与瑞士国家超级计算中心 CSCS 联合发布了 Apertus,这是瑞士首个大规模开放多语言大语言模型。Apertus 源自拉丁语「开放」,其核心理念是「完全开放」,模型的架构、权重、训练数据及训练配方都进行了完整公开和记录。

该模型提供 8B 和 70B 两种参数版本,均基于宽松的开源许可证发布。Apertus 已在 15 万亿 token 上进行训练,覆盖超过 1000 种语言,其中 40% 为非英语数据,特别包含了瑞士德语、罗曼什语等在主流模型中较为罕见的语言。

目前,Apertus 可通过战略伙伴 Swisscom 的瑞士主权 AI 平台、Hugging Face 及 Public AI 网络公开发布。Swisscom 将在即将举行的 Swiss {ai} Weeks 黑客松期间向开发者提供专用接口,而普通商业用户即日起即可在其平台上调用。Public AI 则将 Apertus 作为公共基础设施向全球用户开放。

研究团队同步公开了训练流程的全部文档、源代码、中间检查点及数据保护输出过滤文件,并严格遵循瑞士数据保护法、瑞士版权法以及欧盟 AI 法案的透明度义务。未来版本计划扩展模型家族,提升效率,并探索在法律、气候、健康、教育等垂直领域的专用化应用,同时保持高标准的透明与合规。

相关链接:

  • https://www.swiss-ai.org/apertus

  • https://publicai.co/

(@ 橘鸭 Juya)

2、腾讯混元 Voyager 开源:斯坦福评测夺冠,首创原生 3D 重建与超长漫游能力

腾讯混元正式发布并完全开源 HunyuanWorld-Voyager,这是业界首个支持原生 3D 重建的超长漫游世界模型。该模型在斯坦福大学李飞飞团队发布的 WorldScore 基准测试中综合能力排名第一,其视频生成与 3D 重建两项任务均领先于现有的开源方法。

HunyuanWorld-Voyager 基于 HunyuanWorld 1.0 架构,创新地将视频生成与 3D 建模相融合,能够直接输出点云视频并导出为通用的 3D 格式,无需依赖 COLMAP 等额外的重建工具。模型引入了可扩展的世界缓存机制,利用初始 3D 点云缓存投影到目标相机视图,为扩散模型提供引导,并在生成过程中实时更新缓存,形成闭环,从而确保在任意相机轨迹下的几何一致性。

用户可以通过键盘或摇杆控制相机,实时生成高保真的 RGB-D 序列。输出的点云可直接用于 3D 应用,支持 3D 物体纹理生成、视频场景重建、风格化编辑与深度估计等多种功能。该模型对 HunyuanWorld 1.0 具有良好的兼容性,能够扩展其漫游范围并提升复杂场景的生成质量。

项目主页、代码仓库与技术报告均已公开,用户可在项目主页、GitHub 与 Hugging Face 免费获取。

相关链接:

https://3d-models.hunyuan.tencent.com/world/

(@ 橘鸭 Juya)

3、Krea 发布实时视频生成功能:12fps 帧率 +4 种交互方式,定义「世界模型」新体验

Krea 宣布开放其实时视频生成功能的候补名单。该系统能够以超过 12 fps 的帧率进行实时生成,实现了「生成速度超过播放速度」的即时反馈。同时,系统能在帧间保持出色的时间一致性,确保动作、身份与风格的稳定。

用户可以通过四种不同的输入方式与系统进行交互:在画布上直接绘制、输入文本提示、接入摄像头实时画面或共享屏幕内容。该系统基于现代的 world model 思路研发,通过学习场景的演化规律以及动作在时间中的连锁反应,实现了既快速又连贯的交互体验。目前,该功能已开启候补申请,Krea 团队将在本周内陆续向候补用户开放使用权限。

相关链接:

https://www.krea.ai/blog/announcing-realtime-video

(@ 橘鸭 Juya)

4、NotebookLM 新增音频概览格式:新增专家点评与辩论功能

NotebookLM 正在推出四种全新的音频概览格式。默认的 Deep Dive 模式提供对上传资料的深入剖析;Brief 模式用约 1–2 分钟的短音频给出精炼概览;Critique 模式以专家视角对材料进行建设性点评;而 Debate 模式则由两位主持人展开观点对谈。

相关链接:

https://x.com/NotebookLM/status/1962949985546187120

(@ 橘鸭 Juya)


###

02 有亮点的产品

1、米哈游创始人蔡浩宇新作《星之低语》上线遇冷,玩家在线数不足千人

米哈游创始人蔡浩宇(身价超 500 亿)创立的 Anuttacon 公司推出首款 AI 游戏《Whisper from the Stars》(星之低语),Steam 首发价 27 元。尽管团队豪华(成员来自米哈游、微软、Meta 等),但上线首日峰值在线仅 964 人,一周后跌至 139 人,远未达「爆款」预期。

玩家评价:许多玩家欣赏其人工智能技术的自然互动和人物情绪表现,认为这种实时互动带来了新鲜感。部分玩家认为游戏玩法单一缺乏长期吸引力,容易陷入「有话聊但无事做」的状态。同时,作为一款依赖云技术实现渲染的 AI 游戏,其巨大的运营成本也给 Anuttacon 带来了盈利模式的挑战。

尽管如此,《星之低语》的发布仍然被视为 AI 游戏领域的一次重要尝试,展示了 AI 技术在游戏叙述和交互方面的巨大潜力。正如蔡浩宇所言,AI 正在酝酿游戏世界,但真正的「AI 游戏奇点」亟待建立模型的进一步突破。(@ 搜狐科技)

2、集成 MAI-Voice-1,微软推出 Copilot Audio Expressions 语音生成工具

微软最新推出的实验性工具 Copilot Audio Expressions,通过其 MAI-Voice-1 模型,突破了传统 TTS 的限制,实现了能够自动添加情感、语气甚至环境音的逼真语音生成。这款工具通过两种模式,为用户提供了全新的 AI 语音创作体验。

核心亮点

  • Emotive 模式: 适用于需要情感表达的短音频,用户可以选择特定音色和叙述风格,生成最长 59 秒的音频。该模式会自动添加情感细节和措辞调整,让语音听起来更自然生动。

  • Story 模式: 专为多角色叙事设计,用户只需提供一个主题提示(例如「猫在暗处潜行觅食的故事」),系统便会自动生成包含旁白和角色对白在内的最长 90 秒的音频,并能处理不同口音的互动,非常适合创意故事和游戏配音。

  • 逼真度接近真人: 借助 MAI-Voice-1 模型对海量真人语音数据的分析,Copilot Audio Expressions 能够学习并模仿人类在对话中自然的停顿、重音和情绪波动,从而避免了传统 TTS 的机械感。据实测,其生成的音频在自然度评分上能达到真人配音员的 90%。

Copilot Audio Expressions 的推出对内容创作领域产生了不小的影响。它为短视频博主、教育机构、独立游戏开发者等提供了低成本、高质量的配音解决方案。尽管短期内 AI 难以完全取代专业配音演员对复杂情感的精准把控,但长期来看,它可能会分流基础的配音工作。

微软已表示,该项目未来将支持多语言(包括中文),并计划提供 API 接口,允许开发者将其集成到自己的应用或游戏中,同时会突破 90 秒的时长限制。(@AI 启元社)

3、ElevenLabs 发布 SFX 模型 v2,AI 音效生成再升级

#####

9 月 2 日,AI 音频研发公司 ElevenLabs 正式发布其音效生成模型(SFX 模型)v2 版本,引入了一系列技术升级,显著提升了音效生成的质量和功能。

本次更新旨在为影视制作、游戏开发、音频编辑等领域的创作者提供更强大的工具。 ElevenLabs 表示,SFX v2 模型的核心目标是通过 AI 技术实现高品质、自定义音效的快速生成,并进一步扩展其在多场景中的应用潜力。

技术亮点

  • 音质与采样率提升

采样率从 44.1kHz 升级至 48kHz,达到行业标准,显著改善音效细节和后期处理效果(如 EQ、混响等)。音效生成时长从 22 秒延长至 30 秒,给予创作者更多创作空间。

  • 无缝循环音效功能

新增无缝循环音效生成能力,适用于背景音景(如雨声、海洋波浪、咖啡厅环境音)等长时间播放场景。例如,一段 30 秒的循环雨声可扩展为 11 分钟的音频,满足有声书、冥想应用或生产力工具的背景音需求。

  • 用户界面与 API 优化

SFX 库(SFX Library)正在进行重大扩展和重组,使用户更容易探索和使用。新增「收藏」功能,允许用户保存优质生成音效,并在 ElevenLabs Studio 中直接调用。支持通过提示词(Prompt)重混(Remix)已有音效,激发更多创意。

  • 多格式输出

所有计划(包括免费计划)均支持 MP3 和 WAV 格式输出,方便不同场景的使用。

(@X\@ElevenLabs )

4、Sierra 获 3.5 亿美元融资,估值达 100 亿美元,深耕企业 AI 客服市场

据 Axios 援引消息人士报道,专注于为企业客户提供定制 AI 智能体解决方案的初创公司 Sierra,即将完成一轮 3.5 亿美元的融资,这笔交易将使其成立两年的公司估值达到 100 亿美元。

  • 市场定位与差异化: 当前 AI 智能体领域虽然热度不减,但行业对于其构建和部署路径仍未形成统一范式。Sierra 则另辟蹊径,专注于为企业客服和支持场景提供优化且高度专业的 AI 智能体解决方案,旨在满足企业客户服务领域日益增长的需求。

  • 创始人团队背景: Sierra 的创始人阵容强大,包括前 Salesforce 联席 CEO、现 OpenAI 董事长 Bret Taylor,以及前 Google 高管 Clay Bavor。他们的丰富经验为 Sierra 的发展奠定了坚实基础。

  • 融资历程与投资方: 这并非 Sierra 首次获得巨额融资。公司在去年 10 月已完成一轮 1.75 亿美元的融资,当时估值为 45 亿美元。与上一轮融资相同,本轮融资仍将由知名投资机构 Greenoaks Capital 领投。

  • 财务与客户表现: 消息人士透露,Sierra 的企业年度经常性收入(ARR)有望突破 1 亿美元大关。公司在今年 6 月曾表示,已拥有数百家企业客户,其中 15% 的客户年收入超过 100 亿美元,50% 的客户年收入超过 10 亿美元,显示出其在服务大型企业客户方面的强大实力和市场认可度。(@Axios)


###

03 有态度的观点

1、凯叔犀利点评 AI 玩具乱象:拒绝「大模型套壳」,真正的 AI 玩具必须是解决方案

凯叔表示:当下许多 AI 玩具只是将大模型的能力通过硬件传递给用户,卖的是「token」,这不长远。他认为,真正的 AI 玩具必须是「解决方案」。

他将「陪伴」定义为一个过程,而非目的,重要的是过程中发生了什么。这种思路传递到了产品中。据凯叔介绍,AI 鸡飞飞,对于孩子和家长来说,承载了五大解决方案:

  • 解决方案一:适龄沟通的智能对话功能,且终身免费。

  • 解决方案二:以《口袋神探》数百个科学推理案件为素材,让孩子在与鸡飞飞共同破案的过程中,自然锻炼逻辑演绎与归纳能力。

  • 解决方案三:彻底和凯叔讲故事的故事会员几万集内容打通。孩子可以通过语音呼唤出任何想听的内容。

  • 解决方案四:智能家长端上线,家长可智能管理,了解孩子另一个维度的成长。

  • 解决方案五:专属 AI 英语陪练。支持双语对话,可通过游戏、进阶式的互动,在聊天中提升英语水平。

(@ 极客公园)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册