开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@ 鲍勃

01 有话题的技术

1、OpenBMB 发布 VoxCPM：无分词器 TTS，实现上下文感知语音生成与逼真语音克隆

VoxCPM 是一款创新的无分词器（Tokenizer-Free）文本到语音（TTS）系统，它将语音合成的真实感提升至全新高度。通过在连续空间中建模语音，VoxCPM 突破了传统离散分词的局限，并实现了两大核心功能：上下文感知的语音生成和逼真的零样本语音克隆。

与主流方法将语音转换为离散标记不同，VoxCPM 采用端到端的扩散自回归（Diffusion Autoregressive）架构，直接从文本生成连续的语音表示。该系统构建于 MiniCPM-4 骨干模型之上，通过分层语言建模（Hierarchical Language Modeling）和 FSQ 约束，实现了隐式的语义 - 声学解耦（Semantic-Acoustic Decoupling），显著增强了语音的表达力和生成稳定性。

🚀 主要亮点

上下文感知、富有表现力的语音生成： VoxCPM 能够深度理解文本内容，推断并生成恰当的韵律，从而输出极具表现力且流畅自然的语音。它能根据文本内容自发调整说话风格，基于海量的 180 万小时双语语料库训练，可生成高度契合的个性化声音表达。
逼真的语音克隆： 仅需一小段参考音频，VoxCPM 即可实现精准的零样本语音克隆。它不仅能完美复刻说话者的音色，更能捕捉口音、情感语调、节奏和停顿等细微特征，打造出高度忠实且自然的仿声声音。
高效的合成速度： VoxCPM 支持流式合成，在消费级 NVIDIA RTX 4090 GPU 上，其实时因子（RTF）低至 0.17，可轻松满足实时应用的需求。

02 有亮点的产品

1、YouTube Shorts 集成 Google Veo 3：免费 AI 视频生成，赋能全球创作者

在 #MadeOnYouTube 发布会上，YouTube 揭示了超过 30 项 + 创新的 AI 功能，其核心在于将 Google DeepMind 的 Veo 3 Fast 模型深度整合进 Shorts，旨在全面赋能创作者。

借助这些新功能，创作者只需输入文本提示，便可免费生成配备同步音频的完整竖屏视频片段。同时，创作者还可在短片内直接完成背景替换、动态效果添加、道具增设及视频风格重绘等精细化操作。

此外，YouTube 同步推出了「Edit with AI」按钮，能将原始素材自动剪辑为视频初稿；同时，也提供了「Remix」工具，极大方便用户对现有内容进行二次创作。Google 高管 Demis Hassabis 与 Neal Mohan 已确认，这些创新功能目前已率先在美国、加拿大、英国、澳大利亚和新西兰市场上线。

详细链接：

https://x.com/YouTubeCreators/status/1968006136030003257

(@YouTube Creators X)

2、Dex 获 480 万美元融资：拍摄真实世界物体，自由对话学习外语

Dex 是一家由三位前科技从业者创立的初创公司，他们开发了一款名为「Dex」的 AI 驱动的儿童语言学习设备，旨在鼓励孩子探索真实世界并学习新语言。该公司近期宣布已成功融资 480 万美元，该设备定价 250 美元，已获得数百个家庭的购买。

关键亮点

AI 驱动的沉浸式学习：「Dex」设备集成了摄像头和触摸屏，孩子们可以通过拍摄真实世界的物体来学习其名称，AI 识别后会以选定语言发音。它还包含互动故事课程和游戏，强调动手体验和真实语境下的语言习得。
多语言和方言支持：该设备面向 3-8 岁儿童，目前支持中文、法语、德语、印地语、意大利语、日语、韩语和西班牙语，并提供包括埃及阿拉伯语、台湾普通话和墨西哥西班牙语在内的 34 种方言支持。
家长监控与安全保障：配套的家长 App 可追踪孩子的学习进度，如掌握的词汇和使用时长。「Dex」采用强大的安全机制，包括实时对话评估和词汇过滤，以防止不当内容，并承诺零数据保留政策。
未来功能展望：公司正在开发一项 AI 聊天机器人功能，允许儿童进行自由对话式提问，但该功能尚未准备好大规模推广。

详细链接：

https://techcrunch.com/2025/08/20/dex-is-an-ai-powered-camera-device-that-helps-children-learn-new-languages/

(@TechCrunch)

3、Nothing 获 2 亿美元融资，明年发布 AI 设备

智能设备企业 Nothing 今天在英国宣布完成 2 亿美元 C 轮融资，老虎环球领投，现有投资方谷歌风投、EQT 等跟投；高通创投和印度富豪 Nikhil Kamath 首次加入。

据了解，Nothing 目前已经出货数百万台设备（包括智能手机和耳机等产品），25 年实现历史累计销售额突破 10 亿美元。

值得注意的是，Nothing 从创立之初就画的 AI 设备大饼，这次又更新了：创始人裴宇透露，将在明年推出「AI 原生设备」（AI-native device），一种独立于手机的设备。

据悉，Nothing 的 AI 设备将能够在用户需要时随时可用，并由智能驱动，将理解转化为行动。其还支持跨模态捕捉上下文，并按需生成交互界面，随用户目标而变化。

裴宇表示，和 AI 所取得的革命性进展相比，智能手机的体验仍然停滞不前，创新局限，效果差强人意，是公司加力 AI 原生设备的原因。

(@APPSO)

03 有态度的观点

1、Altman：AI 无法替代真实的人际情感

在前不久的一次深度访谈中，硅谷知名投资人 Vinod Khosla 和 OpenAI CEO Sam Altman 探讨了关于 AI 的未来走向，以及哪些能力会被强化，哪些人类价值不会被替代等内容。

访谈中，Sam Altman 直言，AI 的能力边界正在被不断突破，从软件开发到科学研究，几乎所有类型的智力劳动都可能被 AI 覆盖。然而，他强调，人与人之间的情感连接是任何技术都无法取代的。

同样一句鼓励的话，从一个真实的人那里听到，和从 AI 的聊天界面看到，感受是完全不一样的。

Altman 解释，这种差异不仅仅是文字内容的不同，而是源于人类交流中独有的温度与细节 —— 眼神交流、语调起伏、肢体动作、甚至是彼此之间长期建立的信任感。这些微妙的情绪信号构成了人际关系的核心，而 AI 再先进，也只能在表层模仿，无法真正触及这种深层体验。

他还指出，AI 的普及将彻底改变软件行业的生产方式。未来，普通人无需编程背景，就能直接生成符合自己需求的应用程序。这一趋势将对传统 SaaS 模式构成冲击 —— 如果现有产品无法快速适应这种变化，其市场份额和商业价值都可能遭受重大损失。

在谈及行业未来时，Altman 特别提到能源问题。他认为，算力需求的持续攀升将使能源成为 AI 发展的核心瓶颈之一。即便新技术如 DeepSeek 在效率上取得突破，未来 AI 的定价仍可能与电力成本直接挂钩，这意味着能源供应能力将成为全球科技竞争的关键变量。

Altman 总结道，AI 将深刻重塑生产力格局，推动社会进入一个高度自动化与个性化的时代。但无论技术如何进步，真实的人际情感与交流，依然是人类社会不可替代的精神支柱。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流