图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Kyutai 推出全双工语音模型后训练对齐方法:引入 GRPO 优化四大交互维度,Moshi 轮替成功率提升至 95.8%

法国 AI 实验室 Kyutai 针对全双工(Full-Duplex)语音模型在实时交互中存在的静音、抢话及缺乏反馈(Backchanneling)等问题,提出了一种基于 GRPO(Group Relative Policy Optimization)的后训练(Post-training)对齐方法。该方法通过引入特定维度的奖励函数与 LLM 裁判,在保留语义质量的同时,显著改善了 Moshi 和 PersonaPlex 模型的实时对话自然度

(@kyutai)

2、Gradium 升级 TTS 模型:针对电话场景优化 8kHz 音频,法语及英文复杂发音准确率超越 ElevenLabs

语音 AI 厂商 Gradium 宣布升级其底层 Gradium TTS 模型,专门解决生产级语音智能体(Voice Agent)在电话交互中遭遇的边缘 case 发音失败问题。新模型在不改变 API 接入方式的前提下,大幅提升了字母拼读、缩写展开、电话号码及邮箱等复杂文本的发音准确率。由于目标应用主要为电话智能体,该模型输出的音频采样率统一为 8 kHz。

(@gradium.ai)

02 有亮点的产品

1、字节豆包手机硬件负责人林夕离职

图片

据多方信源确认,字节跳动 AI 硬件团队 Ocean 核心成员、豆包手机硬件产品负责人林夕已于近期离职。这是字节自 2024 年启动 AI 手机项目以来,首位出走的核心硬件负责人。

根据 Linkedin 信息,林夕此前长期任职于华为终端,是 Pura X 阔折叠手机硬件产品负责人。2025 年 3 月,华为发布全球首款阔折叠手机 Pura X,其 16:10 的"阔型屏"比例、玄武水滴铰链与复合超韧叠层结构等硬件设计,背后均有林夕所在团队的深度参与。

根据公开信息,Pura X 的市场表现远超外界预期。首销 48 小时预定量突破 120 万台,首周激活量接近 10 万台,上市 21 天激活量约 22 万台,日均销量破万。截至 2025 年底,Pura X 累计销量突破 110 万台,上市一年出货量更是突破 150 万台,单款产品超过其后三位厂商旗舰折叠机型总和

华为借此在中国折叠屏市场份额突破 71.8%。一位接近华为供应链的人士评价,Pura X 在折叠屏可靠性上的突破,"那批硬件工程师功不可没"。

2026 年,随着字节 AI 手机项目加速,林夕从华为转入字节 Ocean 团队,直接向 Kayden(刘成城)汇报。Kayden 是字节 AI 硬件团队 Ocean 的负责人,前 36 氪创始人,2022 年随其创办的鲸鲮科技被字节收购后进入公司,目前向 Flow 负责人朱骏汇报。在字节内部,Flow 团队与抖音团队平级,Ocean 作为 Flow 下属的硬件团队,承担着字节"AI+ 硬件"战略的核心落地任务。

豆包手机由中兴担任 ODM,首批以努比亚 M153 工程机的形式亮相,主打"豆包手机助手"的系统级 AI 能力——支持跨应用操作、屏幕感知与全局记忆。字节将此视为终端 AI 布局的"三位一体"——将大模型能力、超级 App 与硬件终端结合

(@Z Finance)

2、Google 搜索服务将默认保存 Lens 图片与语音交互用于 AI 训练

据官方帮助文档,Google 正在逐步推出新的搜索服务隐私设置,将用户的 Lens 图片、语音搜索及 Translate 音频等交互媒体纳入「Search Services History」进行保存并用于模型训练,用户可手动关闭此功能。

Google 正在更新其搜索服务的隐私设置,引入「Search Services History」和「Personalized Recommendations」两项新控制选项,并在未来几个月内逐步推出。

官方称,新的历史记录设置将扩展保存范围,涵盖 Google Lens 拍摄的图片、Search Live 录音以及 Translate 语音交互等媒体文件

这些数据将被用于提供个性化体验及训练生成式 AI 模型。

用户可通过账号设置随时关闭历史记录或单独禁用「Save Media」选项。

原有的 Web & App Activity 偏好设置将被自动迁移。

(@ 橘鸦 Juya)

3、韩国查获首例 AI 智能眼镜考试作弊案

图片

据新华社、韩联社等报道,韩国 TOEIC 考试主办方近期首次确认考生利用 AI 智能眼镜作弊。两名考生分别在 5 月 10 日和 5 月 31 日举行的 TOEIC 考试中被认定违规,成绩已被取消,并被禁止未来四年参加 TOEIC 考试。

考试机构称,监考人员在考试开始后不久发现考生行为异常,并注意到其佩戴眼镜疑似具备智能功能。为避免影响其他考生,监考人员没有立即中断考试,而是在考试结束后通过复核程序确认作弊事实。

韩国 TOEIC 委员会已开始对监考人员进行专项培训,重点识别 AI 智能眼镜和其他新型电子设备,并加强考场电子设备管理、身份核验和考后数据分析。韩国教育部也在研究针对今年 11 月大学修学能力考试的更明确管理措施,可能把 AI 智能眼镜单独列入禁带物品清单

( @APPSO)

03 有态度的观点

1、a16z 合伙人:职场「全量记录」时代已来,语音将重塑企业核心记录系统

图片

a16z 合伙人最近发文表示:「全量记录」时代已来。

(@a16z.news)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流