开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、OpenBMB 发布 VoxCPM:无分词器 TTS,实现上下文感知语音生成与逼真语音克隆

VoxCPM 是一款创新的无分词器(Tokenizer-Free)文本到语音(TTS)系统,它将语音合成的真实感提升至全新高度。通过在连续空间中建模语音,VoxCPM 突破了传统离散分词的局限,并实现了两大核心功能:上下文感知的语音生成逼真的零样本语音克隆

与主流方法将语音转换为离散标记不同,VoxCPM 采用端到端的扩散自回归(Diffusion Autoregressive)架构,直接从文本生成连续的语音表示。该系统构建于 MiniCPM-4 骨干模型之上,通过分层语言建模(Hierarchical Language Modeling)和 FSQ 约束,实现了隐式的语义 - 声学解耦(Semantic-Acoustic Decoupling),显著增强了语音的表达力和生成稳定性。

🚀 主要亮点

相关链接:

https://github.com/OpenBMB/VoxCPM

(@OpenBMB )

2、World Labs 推出 AI 模型升级:单图生成「持久 3D 世界」,几何更连贯、风格更丰富

World Labs 近日宣布升级其 AI 模型,实现从单张图像生成更持久、更连贯的 3D 世界。这款模型现在能够产出更清晰、更统一的几何结构,并能想象出多种多样风格的虚拟世界。这一突破性进展有望通过 AI 增强「空间智能」,在游戏、虚拟现实(VR)等领域掀起内容创作新浪潮。

关键亮点

World Labs 的改进模型已推出,用户可以在 World Labs 官网(worldlabs.ai)申请访问其有限 Beta 预览版,探索或创建自己的 3D 世界。相关技术细节已在 arXiv 论文 2503.16611 中公布。

相关链接:

https://x.com/theworldlabs/status/1967986124963692715

(@World Labs X )

3、KREA AI 推出「Real-time Video」功能:无限长视频生成

KREA AI 最近在 X 平台宣布推出的创新功能 Real-time Video,能够实时生成无限长的视频内容,从而彻底革新了传统的 AI 视频创作领域。这项功能不仅让用户对视频创作拥有了全面的控制力,还能生成具有卓越物理理解能力的真实感视频。它极大地降低了视频制作的门槛,使得专业创作者和普通用户都可以更高效地将创意变为现实,并有望为游戏开发、动画制作、品牌营销等多个行业带来颠覆性的变革。

相关链接:

https://x.com/krea_ai/status/1967962183314334185

(@KREA X)

02 有亮点的产品

1、YouTube Shorts 集成 Google Veo 3:免费 AI 视频生成,赋能全球创作者

在 #MadeOnYouTube 发布会上,YouTube 揭示了超过 30 项 + 创新的 AI 功能,其核心在于将 Google DeepMind 的 Veo 3 Fast 模型深度整合进 Shorts,旨在全面赋能创作者。

借助这些新功能,创作者只需输入文本提示,便可免费生成配备同步音频的完整竖屏视频片段。同时,创作者还可在短片内直接完成背景替换、动态效果添加、道具增设及视频风格重绘等精细化操作。

此外,YouTube 同步推出了「Edit with AI」按钮,能将原始素材自动剪辑为视频初稿;同时,也提供了「Remix」工具,极大方便用户对现有内容进行二次创作。Google 高管 Demis Hassabis 与 Neal Mohan 已确认,这些创新功能目前已率先在美国、加拿大、英国、澳大利亚和新西兰市场上线。

详细链接:

https://x.com/YouTubeCreators/status/1968006136030003257

(@YouTube Creators X)

2、Dex 获 480 万美元融资:拍摄真实世界物体,自由对话学习外语

Dex 是一家由三位前科技从业者创立的初创公司,他们开发了一款名为「Dex」的 AI 驱动的儿童语言学习设备,旨在鼓励孩子探索真实世界并学习新语言。该公司近期宣布已成功融资 480 万美元,该设备定价 250 美元,已获得数百个家庭的购买。

关键亮点

详细链接:

https://techcrunch.com/2025/08/20/dex-is-an-ai-powered-camera-device-that-helps-children-learn-new-languages/

(@TechCrunch)

3、Nothing 获 2 亿美元融资,明年发布 AI 设备

智能设备企业 Nothing 今天在英国宣布完成 2 亿美元 C 轮融资,老虎环球领投,现有投资方谷歌风投、EQT 等跟投;高通创投和印度富豪 Nikhil Kamath 首次加入。

据了解,Nothing 目前已经出货数百万台设备(包括智能手机和耳机等产品),25 年实现历史累计销售额突破 10 亿美元。

值得注意的是,Nothing 从创立之初就画的 AI 设备大饼,这次又更新了:创始人裴宇透露,将在明年推出「AI 原生设备」(AI-native device),一种独立于手机的设备。

据悉,Nothing 的 AI 设备将能够在用户需要时随时可用,并由智能驱动,将理解转化为行动。其还支持跨模态捕捉上下文,并按需生成交互界面,随用户目标而变化。

裴宇表示,和 AI 所取得的革命性进展相比,智能手机的体验仍然停滞不前,创新局限,效果差强人意,是公司加力 AI 原生设备的原因。

(@APPSO)

03 有态度的观点

1、Altman:AI 无法替代真实的人际情感

在前不久的一次深度访谈中,硅谷知名投资人 Vinod Khosla 和 OpenAI CEO Sam Altman 探讨了关于 AI 的未来走向,以及哪些能力会被强化,哪些人类价值不会被替代等内容。

访谈中,Sam Altman 直言,AI 的能力边界正在被不断突破,从软件开发到科学研究,几乎所有类型的智力劳动都可能被 AI 覆盖。然而,他强调,人与人之间的情感连接是任何技术都无法取代的。

同样一句鼓励的话,从一个真实的人那里听到,和从 AI 的聊天界面看到,感受是完全不一样的。

Altman 解释,这种差异不仅仅是文字内容的不同,而是源于人类交流中独有的温度与细节 —— 眼神交流、语调起伏、肢体动作、甚至是彼此之间长期建立的信任感。这些微妙的情绪信号构成了人际关系的核心,而 AI 再先进,也只能在表层模仿,无法真正触及这种深层体验。

他还指出,AI 的普及将彻底改变软件行业的生产方式。未来,普通人无需编程背景,就能直接生成符合自己需求的应用程序。这一趋势将对传统 SaaS 模式构成冲击 —— 如果现有产品无法快速适应这种变化,其市场份额和商业价值都可能遭受重大损失。

在谈及行业未来时,Altman 特别提到能源问题。他认为,算力需求的持续攀升将使能源成为 AI 发展的核心瓶颈之一。即便新技术如 DeepSeek 在效率上取得突破,未来 AI 的定价仍可能与电力成本直接挂钩,这意味着能源供应能力将成为全球科技竞争的关键变量。

Altman 总结道,AI 将深刻重塑生产力格局,推动社会进入一个高度自动化与个性化的时代。但无论技术如何进步,真实的人际情感与交流,依然是人类社会不可替代的精神支柱。

(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流