开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容

ElevenLabs 对其语音转文本模型 Scribe v2 进行了架构级功能更新,引入了原生 PII 实体脱敏和非逐字稿模式。此次升级重点解决了多语言混合转录的规范性问题,并大幅放宽了领域专用术语的引导限制

参考链接:

https://elevenlabs.io/blog/scribe-v2-just-got-an-upgrade

(@elevenlabs)

2、OpenBMB 发布 VoxCPM 2:采用扩散 - 自回归混合架构,支持 48kHz 高采样率与 30+ 语言

开源 TTS 模型 VoxCPM 2 正式发布,由  V1(零样本克隆)到 V1.5(长文本 + 微调)。该版本引入 Diffusion-Autoregressive 混合架构,支持 48kHz 高保真音频合成与 30 余种语言,实现了基于文本描述的零样本(zero-shot)语音风格设计。

GitHub 链接:

https://github.com/OpenBMB/VoxCPM/

( @OpenBMB)

02 有亮点的产品

1、Google 发布语音听写应用 AI Edge Eloquent:基于 Gemma 的端侧离线语音转文字

图片

Google 在 iOS 平台推出实验性听写应用 Google AI Edge Eloquent。该应用采用 Gemma 模型实现端侧 ASR(自动语音识别),支持全离线运行,具备自动过滤口头禅、语境修饰及 Gmail 词库同步功能。

( @TechCrunch)

2、独立开发者郭宇发布电话 Agent 服务 tuwa.ai:支持多语种双向实时翻译和外部智能体接入

图片

独立开发者郭宇推出 AI 电话网络服务 tuwa。该服务在传统公共交换电话网络(PSTN)之上封装了 AI 语音翻译与智能体接管能力,使得用户无需安装任何应用,即可与全球任意固话或手机实现跨语言双向语音通话。

服务已正式上线,提供每月 5 分钟免绑卡免费额度,进阶功能依赖 Pro/Ultra 套餐及按量付费。

官网:https://tuwa.ai/

@turingou\@X

3、原小米硬件高管徐睿将成为 Meta 新组建 AI 硬件团队负责人

图片

原小米、字节跳动硬件业务高管徐睿,将成为 Meta 旗下的 MSL(超级智能实验室)新组建的 AI 硬件团队的负责人

据了解,由 Alexandr Wang 领导的 MSL 将成立一个全新的 AI 硬件团队,徐睿将参与该新部门的组建和领导工作。

据悉,徐睿曾经在小米、字节跳动、英特尔、亚马逊、联想等互联网科技公司担任硬件业务专家和负责人。

2015 年 -2017 年期间,徐睿在小米工作,曾管理小米电视全球团队,负责分析全球智能电视和机顶盒市场,制定了小米电视全球产品路线图,是早期的小米电视/盒子团队的核心成员之一,全程经历了小米从单一手机厂商向米家/AIoT 生态链转型的关键阶段

在加入 Meta 前,徐睿曾任硅谷人形机器人创业公司 K-Scale Labs 的 COO;2025 年底,K-Scale 因资金问题关闭。随后,徐睿加盟由自己的老同事、前小米副总裁 Hugo Barra 创办的 AI 硬件公司 Dreamer,并担任产品经理。今年 3 月,Dreamer 以「Acqui-hire」(人才收购)的方式被 Meta 收购。

(@ 极客公园)

4、九维声瞳发布智能音频眼镜 SparkRider:搭载 150° 旋转音腔与 aptX 编解码,实现 80% 抗风噪及 99% 漏音控制

图片

图片

新锐创业公司九维声瞳(Nine Dimension Acoustic Vision)发布专为运动骑行设计的智能音频眼镜 SparkRider。该产品通过定制旋转声学结构与高通音频芯片方案,解决了骑行高风噪环境下的音质损耗与通话质量问题

( @AI Vision)

03 有态度的观点

1、罗福莉谈 Anthropic 封杀「龙虾」:情有可原,OpenClaw 上下文管理「糟透了」

图片

昨天,小米 MiMo 团队负责人罗福莉(@\_LuoFuli)在 X 发文,对 Anthropic 近日切断第三方工具框架(harness)对 Claude 订阅服务的访问权限一事进行评价。

据悉,此举直接影响了「龙虾」OpenClaw 等依赖 Claude 订阅接口的 AI 智能体开发工具

罗福莉指出,Claude Code 的订阅机制本身是一套「经过精心设计的算力均衡分配系统」,但在第三方框架接入后,这套系统承受了远超预期的压力。

她以 OpenClaw 为例,详细说明了其上下文管理存在的严重缺陷

在处理单个用户请求时,OpenClaw 会触发多轮低价值的工具调用,每次调用均携带超过 10 万 Token 的长上下文窗口,即便命中缓存也存在大量浪费,极端情况下还会拉高其他请求的缓存未命中率。实际请求次数是 Claude Code 原生框架的数倍,换算成 API 定价,真实成本可能是订阅价格的数十倍

对于此次封禁措施,罗福莉认为短期阵痛反而是正向压力。第三方框架被迫转向 API 付费后,成本骤增数十倍的压力将倒逼开发者改善上下文管理、提升 prompt 缓存命中率、削减无效 Token 消耗,「痛苦最终会转化为工程纪律」。

她同时向其他大模型厂商发出警示,呼吁在尚未厘清编程订阅计划定价模型之前,不要盲目跟进价格战。

低价出售 Token 的同时对第三方框架大开门户,看似对用户友好,实则是个陷阱——Anthropic 刚刚从这个坑里爬出来。

她还指出,若用户长期使用低质量的 AI 智能体框架、不稳定的推理服务和为控制成本而降级的模型,最终仍无法完成实际任务,这对用户体验和留存都是恶性循环。

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流