图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.1 Flash TTS 模型,高音质与低成本平衡

图片

图片

Google 推出新一代文本转语音(TTS)模型 Gemini 3.1 Flash TTS。该模型通过引入自然语言「音频标签」实现了对语音风格、节奏和多角色交互的精细化控制,在维持低延迟与低成本的同时,显著提升了合成语音的表现力

参考链接:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

( @google blog)

2、Cloudflare 发布 @cloudflare/voice:为智能体提供原生语音管道,支持单 WebSocket 流式交互与 SQLite 状态持久化

Cloudflare 为其 Agents SDK 推出实验性扩展包 @cloudflare/voice,允许开发者在不改变现有智能体架构的前提下,为基于 Durable Object 的 Agent 直接添加实时语音能力。该工具链通过减少跨服务跳转和引入流式分句合成技术,显著降低了语音交互的端到端延迟

(@cloudflare)

3、阿里 ATH 事业群发布世界模型产品 Happy Oyster,主打实时世界创建与交互,可生成动态三维环境,支持影视制作、游戏开发等场景

图片

阿里巴巴 ATH 事业群推出开放式世界模型产品「Happy Oyster」,主打实时世界创建与交互

该产品可生成动态三维环境,支持影视制作、游戏开发等场景。其与 HappyHorse 同属 ATH 旗下 AI 创新事业部。目前已开启内测,用户可通过官网 happyoyster.cn 加入候补名单。

Happy Oyster 基于原生多模态架构,其背后是支持多模态输入与音视频联合生成的流式生成世界模型

加入等候列表:happyoyster.cn

(@ 潇湘晨报)

4、阶跃 StepAudio 2.5 TTS 上线,将语境理解能力引入语音生成全流程

今天,阶跃正式发布新一代语音生成模型StepAudio 2.5 TTS。围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力,StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。

无论是角色配音、有声内容创作,还是智能语音交互,StepAudio 2.5 TTS 都能帮助开发者和创作者更高效地生成自然、细腻、接近真人的语音内容。

文档:

https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts

(@ 阶跃星辰)

02 有亮点的产品

1、X 独立通讯应用「X Chat」重新上线语音消息功能

图片

图片

社交平台 X(原 Twitter)近日宣布,其私密消息服务「X Chat」已正式恢复对「语音笔记(Voice Notes)」功能的支持。用户现在可以在一对一私信和群聊中,再次畅快地发送音频消息。

据悉,在此前 X Chat 的升级中,语音功能的短暂移除曾引发部分用户不满。如今功能回归,用户只需按住聊天文本框右侧的麦克风图标即可录音,或者通过「长按并向上滑动」的手势实现免提录制。

这一变动背后,折射出 X 平台产品战略的微妙转变。此前,埃隆·马斯克(Elon Musk)曾多次强调要将 X 打造成一个无所不包的「万能超级应用(Everything App)」。然而近期,X 似乎正倾向于将核心功能剥离,提供独立的 App 体验。除了近期已作为独立应用运营的 X Chat 外,其支付服务「X Money」目前也正在作为独立 App 进行测试。

业内分析认为,X Chat 恢复语音消息,是其作为独立通讯应用补齐基础体验、增强市场竞争力的必要举措。目前,X Chat 已配备消息编辑/删除、音视频通话及截图通知等主流通讯功能。

( @TechCrunch)

2、Fathom 发布 botless 会议模式:支持视频录制并集成 MCP

图片

Fathom 推出重大更新,允许用户在无需 AI 助手(Bot)进入虚拟会议室的情况下完成录制与转录。该版本通过系统级采集解决了会议室「过度拥挤」的问题,并首次引入 Model Context Protocol(MCP)支持,将会议数据转化为可供外部 AI 工具调用的结构化上下文

( @TechCrunch)

3、药房技术服务商 Lumistry 发布 Voice AI 助手:对话式 AI 替代数字按键 IVR,深度集成 PMS 实现处方自动化处理

图片

药房技术服务商 Lumistry 推出 Voice AI 助手,作为其 Lumistry Voice 通信套件的核心组件。该产品旨在利用对话式 AI 彻底取代传统的数字按键式 IVR 系统,通过与药房管理系统(PMS)实时联动,实现自动化的处方续订与状态查询。

( @Yahoo Finance)

03 有态度的观点

1、领英 CEO:AI 时代,这四项软技能正在升值

图片

领英 LinkedIn CEO Ryan Roslansky 近日在接受《工具和武器》播客采访时表示,随着 AI 加速接管职场中的重复性工作,人类的「软技能」正在获得前所未有的重视。

他具体点名了四项以沟通为核心的能力:好奇心(curiosity)、勇气(courage)、沟通力(communication)与同理心(compassion)

Roslansky 认为,AI 正在重塑人们理解工作的方式,推动职场人将自身角色视为「一系列任务的集合」,而非固定的职位头衔。

他将这些任务划分为三类:可被 AI 完全自动化的、可被 AI 辅助增强的,以及仍需人类主导的——如化解冲突、说服团队、制定战略等。

这些技能很重要,但过去一直被称为软技能......在一个人们真正精通这些技能的职业世界里,我认为一切都会变得更好。

他表示,随着 AI 智能体承担更多自动化职责,人们将有更多时间用于同事之间的真实沟通,这进一步抬高了沟通能力、判断力与情商的溢价。

有时候当你深陷技术之中,尤其是 AI,当你勾勒出它可能走向的方向,会把你带到一些黑暗的地方。但我相信,人类在塑造这项技术的走向上扮演着不可或缺的角色。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流