图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Odyssey 发布通用世界模型 Odyssey-2 Max:自回归扩散 Transformer 架构,物理仿真性能提升 18%

Odyssey 推出迄今规模最大的通用世界模型 Odyssey-2 Max。该模型采用自回归扩散 Transformer(AR DiT)架构,通过对大规模真实世界动作的「下一状态预测」(Next-state Prediction)实现高保真物理仿真,在 VBench 2 物理基准测试中刷新行业纪录,支持实时交互式模拟。

( @Odysseyml\@X)

2、清华大学发布 ControlAudio:基于渐进式扩散建模实现音频事件定时与语音内容协同生成

清华大学团队提出 ControlAudio 架构,通过渐进式扩散建模(Progressive Diffusion Modeling)实现了文生音频(TTA)时间锚定与语音内容的可控合成。该方法解决了模型在复杂场景下难以精确控制声音发生时间及语音清晰度低的技术痛点

随着音频与多模态生成模型的发展,越来越多系统开始探索 Speech、Audio、Music 的统一建模范式。研究团队希望 ControlAudio 所提出的「多粒度条件统一建模 + 渐进式生成」思路,能够为通用音频生成提供一种可扩展的技术路径,推动模型从单一任务走向更复杂、多维度可控的内容生成。

效果试听:

https://control-audio.github.io/Control-Audio

(@ 机器之心)

02 有亮点的产品

1、Bud 发布 AI Human Emulator:集成云端虚拟环境,支持全自主端到端任务执行

Bud 推出名为 AI Human Emulator 的智能体系统,通过为 AI 配备完整的云端虚拟计算环境(算力、存储、内存及浏览器),使其具备像人类一样操作计算机的能力。该产品无需本地配置,支持通过短信、Telegram 或 Web 端直接调用,实现从代码编写到深度调研的端到端任务闭环。

试用链接:https://bud.app/

( @budapp\@X)

2、乐鑫发布 ESP-Claw 框架:以 Chat Coding 实现 AI 智能体对物理世界的实时重构

乐鑫科技正式推出 ESP-Claw 智能体框架,核心围绕 Chat Coding(聊天造物) 理念,将 Agent Runtime 下沉至 ESP32 系列边缘芯片。该框架消除了传统硬件编程门槛,允许用户通过自然语言对话实时定义设备行为,实现 AI 逻辑与物理实体能力的深度解耦与双向调度。

(@ 乐鑫信息科技)

3、DeepL 发布实时语音翻译套件:支持多平台集成、自定义词汇及开发者 API

图片

DeepL 正式推出语音到语音(Voice-to-Voice)翻译套件,覆盖会议、移动端及 Web 端等实时协作场景。该套件通过降低延迟技术实现跨语言对话,并同步开放 API 接口,旨在为呼叫中心、跨国培训及一线员工提供定制化的翻译解决方案

(@TechCrunch)

4、Krisp 推出英式英语实时口音转换技术:端侧 AI 处理,无感集成至离岸呼叫中心

图片

Krisp 宣布在其 AI 口音转换(Accent Conversion)技术中新增英式英语输出支持。该技术允许位于印度、菲律宾等地的离岸呼叫中心智能体通过端侧 AI 实时将口音转换为自然英式英语,旨在消除跨国服务中的沟通摩擦并降低运营成本

(@cxm.world)

03 有态度的观点

1、分析师:苹果评估 CEO 更看重多元化

图片

昨天,苹果官宣 Tim Cook 将于 9 月 1 日卸任 CEO,转任执行董事长;现任硬件工程高级副总裁 John Ternus 正式接棒。对此,天风国际证券分析师郭明錤发文,就这一换帅决定进行了分析。

郭明錤认为,Ternus 最具代表性的成就是主导 Mac 从 x86 平稳迁移至 ARM(Apple Silicon)。这场系统级平台转换涵盖软硬件整合与开发者生态重建,正是这段「换脑手术」经验,使他成为带领苹果迈向设备端 AI 时代的合适人选

在人选逻辑上,郭明錤指出,Ternus 并非出身 iPhone 体系,反映出董事会对 CEO 的评估标准已趋向多元。他还提到,此前亚洲供应链圈普遍押注 Jeff Williams 接任,直至其退休消息公布后判断才随之改变。郭明錤预计,Ternus 将延续 Tim Cook 建立的供应链管理机制,并加深与供应商的技术合作。

另据彭博社报道,Ternus 被认为能够重现乔布斯时代那种果断、强硬的决策风格。作为苹果硬件业务的核心负责人,Ternus 长期深度参与 iPhone、Mac 等核心产品线的研发与决策,在苹果内部具有较高威望。

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。****

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流