图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、高德 PilotTTS 开源:基于 20 万小时数据实现 SOTA,引入 Q-Former + CAMPPlus 双通路解耦架构

高德技术推出了一套名为 PilotTTS 的轻量级自回归语音合成系统,通过双通路条件解耦架构与三阶段精细化数据工程,在仅使用 20 万小时开源数据的条件下,于 Seed-TTS Eval 基准测试中实现了超越大规模数据训练方案的说话人相似度与内容准确率

项目已全面开源,包括三阶段数据流水线配方、预训练模型权重(自回归模块及 CFM 解码器)以及支持零样本克隆与多维控制的训练/推理代码。

更多 Demo: 

https://amapvoice.github.io/PilotTTS/

原文链接:

高德 PilotTTS:通过开源算子、架构微调和精细数据工程,跑通可复现的 SOTA 语音合成之路

(@ 高德技术)

2、NVIDIA 开源 Cosmos 3:16B/64B 双塔架构 MoT 模型,支持 4-bit 量化与物理动作生成

NVIDIA(英伟达)正式开源了针对物理 AI 领域设计的基座模型 Cosmos 3。该模型通过统一的混合 Transformer(MoT)架构,将物理推理、环境模拟与动作生成整合进单一模型,旨在为机器人、自动驾驶及智能空间提供具备物理常识的预测与控制能力

参考链接:

https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/

( @NVIDIAAI\@X)

3、SpaceXAI 招聘中文 AI Tutor 远程岗位 旨在强化 Grok 多方言语音交互与跨文化转录能力

图片

SpaceXAI 官方发布 「AI Tutor - Chinese」 招聘信息,提供全球远程办公机会。

该职位主要负责多语言音频数据的标注、注释与录制。目标在于训练并提升 Grok 模型在语音交互、口音变化及跨文化语境下的处理能力。

应聘者需具备中文母语水平,熟悉方言及口音差异。同时需要英语 B2 水平,并拥有出色的跨口音高精度语音转录能力。

职位形式涵盖全职兼职承包商美国地区时薪为 35 至 45 美元,且不提供签证赞助。

(@ 橘鸦 Juya)

02 有亮点的产品

1、智谱发布两款教育硬件:内置 GLM 大模型,支持多模态交互与逻辑引导问答

图片

图片

大模型公司智谱(Zhipu AI)正式进军教育硬件市场,发布「智谱灵玑」系列两款新品:AI 拍学机与 AI 学问卡。两款设备均原生搭载自研 GLM 大模型,旨在通过软硬一体化方案解决儿童启蒙及中小学生自主学习中的交互与答疑需求。

(@ 多知)

2、掌阅发布 AI 智能体潮玩 CreMoMo:集成自研情感大模型,支持 4G 通讯与抢票智能体

图片

掌阅(iReader)正式发布人格化 AI 硬件 CreMoMo,定价 999 元。该产品通过集成自研情感大模型与长效记忆系统,实现了从单一情感陪伴向任务驱动型硬件的转型,旨在利用 AI 智能体能力切入泛二次元及高净值情感消费市场,以扭转公司 2025 年度 1.76 亿元的净亏损困局。

(@ 新智独角兽)

3、SOND 发布 Dreambuds 睡眠耳机:集成 12 项生物信号监测,已获 700 万美元种子轮融资

图片

前 Bose 睡眠产品负责人与 Google 工程经理联合创立的 SOND,推出首款集成 12 种生物特征传感器的睡眠耳机 Dreambuds。该设备旨在通过实时监测 HRV 等数据实现闭环音频干预,并解决了微型可穿戴设备在多传感器并发下的功耗平衡难题,目前已获 700 万美元种子轮融资

产品已于 5 月 27 日在 Kickstarter 开启众筹,计划筹集 1 万美元,现如今共计筹集超过 29 万美元,共有 619 名支持者早鸟价 449 美元起,公司已完成 700 万美元种子轮融资。

(@ 新硬见)

03 有态度的观点

1、Gurman:苹果想用眼镜复制 Apple Watch 的成功

图片

昨晚,彭博社记者 Mark Gurman 在最新的 PowerOn 新闻通讯中透露,苹果正计划以「进入智能手表市场的方式」切入眼镜领域,将目标对准更广泛的传统眼镜市场,而非仅与 Meta 等智能眼镜厂商竞争。

苹果智能眼镜内部代号 N50,原计划今年底发布、明年初上市,目前已推迟至明年底。苹果预计瞄准 200 至 500 美元价格区间,与依视路、Safilo 集团及 Warby Parker 等传统眼镜品牌竞争。

彭博社援引世界卫生组织数据称,全球眼镜市场年规模约 2000 亿美元,远超苹果手表所对应的腕表市场。报道还提到,苹果 CEO Tim Cook 是这一项目最坚定的支持者之一,接近他的人士称智能眼镜是其任期内的「优先事项」

即将于 9 月接任 CEO 的 John Ternus 同样深度参与该项目,负责研发的 Vision Products Group(VPG)团队过去两年一直在他的领导下运作。首代苹果眼镜将采用椭圆形摄像头设计,提供多种颜色与镜框风格

其他产品进展方面,报道称新款 Apple TV 机顶盒与 HomePod mini 的硬件已完成数月,目前正在苹果总部员工中使用,两款产品均等待今秋新版 Siri 与 Apple Intelligence 功能就绪后同步推出

此外,苹果已启动明年 iOS 28 与 macOS 28 的早期开发工作,内部代号分别为「Bell」与「Poppy」,合称「Boppy」。

古尔曼重申,iOS 27 主要聚焦于小修小补,而 iOS 28 将会「比 iOS 27 更加重要」。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流