开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、阿里巴巴达摩院提出 WorldVLA 模型,首次将世界模型与动作模型融合
阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型(World Model)和动作模型(Action Model/VLA Model)融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。
VLA 模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA 将将两者融合,实现图像与动作的双向理解和生成,如下图所示。
WorldVLA 使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。
论文标题:WorldVLA: Towards Autoregressive Action World Model
论文地址:https://arxiv.org/pdf/2506.21539
代码地址:https://github.com/alibaba-damo-academy/WorldVLA(@ 机器之心)
2、联发科推出开源 AI 语音识别模型 MR BreezeASR 25,针对中国台湾地区语言特点和口音优化
7 月 3 日消息,联发科本月 1 日宣布其辖下的前瞻技术研究单位联发创新基地(MediaTek Research)发布基于 OpenAI Whisper 优化的 AI 语音识别模型 MR BreezeASR 25。
相较于原版 OpenAI Whisper,MR BreezeASR 25 更加理解中国台湾地区用语及口音,如不会将「发生什么事」听成「花生什么事」,同时在当地更为常见的中英混合的用语情境上也达到更高的精准度。
在数据层面,MR Breeze ASR 25 精度相较于 OpenAI Whisper 提升近 10%、中英语转换表现提升 56%。语音识别是 AI 应用的关键入口,该模型的出现将加速繁体中文 AI 实际应用的普及。
联发创新基地将 MR BreezeASR 25 模型以 Apache 2.0 许可开源公布,支持各行业在各类创意 AI 领域的应用。
报道链接:https://www.ithome.com/0/865/454.htm
GitHub:https://github.com/mtkresearch/Breeze-ASR-25(@IT 之家、@aigcrepo)
3、快手推出多模态大模型 Kwai Keye-VL
快手 Keye 团队发布了其前沿的多模态大语言模型 Kwai Keye-VL。该模型基于 Qwen3-8B 语言模型和开源的 SigLIP 视觉编码器构建,总参数量为 80 亿。Keye-VL 在视频理解、视觉感知和推理任务上表现出色,并在多个权威视频基准测试中(如 Video-MME, Video-MMMU 等)超越了同等规模的模型。
Keye-VL 的架构支持动态分辨率输入,并采用 3D RoPE 位置编码统一处理文本、图像和视频信息。其训练过程分为四个阶段的渐进式预训练和两个阶段的后训练。后训练阶段是其核心特色,通过引入混合模式的思维链(CoT)和多思维模式强化学习(RL)机制,显著提升了模型处理复杂多步任务的能力。模型代码已集成到最新的 Hugging Face Transformers 库中,并提供了便捷的工具包来处理各种视觉输入。
GitHub:https://github.com/Kwai-Keye/Keye(@ 橘鸭 Juya)
4、Kyutai 开源文本转语音模型,支持接收语言模型生成文本词元的同时处理并生成音频
研究实验室 Kyutai 宣布开源其文本转语音(TTS)模型和名为 Unmute 的演示应用。其发布的 kyutai/tts-1.6b-en_fr 是一个 16 亿参数的模型,支持英语和法语,并以其自然度、可定制性和速度著称。在单块 L40S GPU 上,该模型能以 350 毫秒的延迟服务 32 个并发用户。
该 TTS 模型的一大创新是支持「文本流输入」,即可以一边接收语言模型生成的文本词元,一边开始处理并生成音频,实现了从接收首个文本词元到生成首个音频块仅 220 毫米的超低延迟。这一能力由 Kyutai 开发的「延迟流建模」(delayed streams modeling)技术实现。
此外,该模型支持高质量的声音克隆和长篇音频生成,并能输出单词级别的时间戳。为确保安全,声音克隆所需的声码器模型未直接发布,但提供了基于公开数据集的语音库。
https://kyutai.org/next/tts(@ 橘鸭 Juya)
1、「星流」设计 Agent 正式推出,支持视频、声音、3D 等内容生成
7 月 3 日,LiblibAI 发布「面向中文用户」的一站式创意设计 Agent「星流 Agent」。官方介绍,星流 Agent 不仅延续了 Lovart(LiblibAI 在海外推出的设计 Agent)的全栈式智能设计能力,还全面适配中文语义、东方美学、本地场景,真正把「用户说一句话,它搞定一套创意设计」落到实处。
目前,星流支持文生图,并且能够理解用户需求,自动匹配风格、选模型、出整套物料。另外,星流还通过接入的十多个顶尖大模型(F.1、Kling、Qwen、hailuo02 等),支持视频、声音、3D 等内容生成。目前,星流已上架 PC 端和移动端。
相关链接:https://www.xingliu.art/(@APPSO)
2、Rokid Glasses 智能眼镜:通过语音交互和 AR 技术实现免提导航
近日,Rokid、高德地图共同推出基于智能眼镜的导航智能体(NaviAgent)应用,可以在导航精准的同时实现无缝切换导航模式、看物识别等功能。
用户佩戴 Rokid Glasses 时,可以通过语音交互切换导航前、导航中的模式。并且这一眼镜在保留速度、方向等导航基础信息的同时,采用稳定贴地引导线和场景化转向立牌,将导航画面显示到了视线远处,非紧贴眼前,用户可以在观察前方路况的同时看到导航信息。
此前,在智能汽车上价值上万的高阶 HUD(抬头显示)功能,也被呈现到了眼镜的显示画面内。导航过程中,Rokid Glasses 会在展示路径的同时,提醒用户注意后方来车、读秒红绿灯。
语音交互还有一大便利性,就是不会打断用户的骑行、驾车过程,当用户提出「先去下加油站」,Rokid Glasses 会快速为用户筛选周边加油站信息,然后同时在显示界面给出选项,用户只需说出「去第一个」,就能快速切换导航。(@ 智东西)
1、AI.Talk 创始人:AI IP 的核心永远是信任
日前,AI 频道 AI.Talk 创始人「赵汗青」接受「数字生命卡兹克」采访,并分享了自己打造 AI.Talk 这一 AI IP 形象的心路历程。
赵汗青在采访中透露了自己对 AI 虚拟形象的解构:文本层(用于形成形象的思想和语言)、音频层(形象的声线和歌声)、影像层(形象的外观),以及互动层。互动层在赵汗青看来「最重要」,并且也是最能体现 AI 时代 IP 特质的一层。对于 AI.Talk 来讲,视频只是最基础的单向交互,团队还在探索更多互动方式,而赵汗青也表示:
我自己的判断是,AI 生成式内容的格式应该会迎来新的变化,不仅仅是目前短视频的方式,至少从历史上看,媒介技术的变革往往会伴随媒介格式的迁移。
采访中,赵汗青与「数字生命卡兹克」共同表示:「万物皆可 AI 生成」的时代背景下,AI IP 的核心永远是信任。赵汗青表示,在真人 IP 充斥着互联网的如今,一个「非人」形象反而成了关注的理由。采访指出,AI IP 形象规避了传统偶像人设崩塌的风险,也为用户提供了一种全新的、没有压力的情感寄托。
另外,赵汗青与「数字生命卡兹克」还共同表示,在满是 AI 生成的未来中,人们将会从筛选信息变成筛选信息源,「信息本身已经没有意义,因为你难辨真假,你只能相信你愿意相信的那几个人,那几个 IP。」(@APPSO)
2、语音交互的下一站,是实现「共情」
过去半年,「AI 语音」赛道正密集地获得融资。尤其引人注目的是,这些融资多为大额,并且投向早期团队。
比如,前不久 AI 语音应用 Wispr Flow 靠「默念输入」,完成了 3000 万美元的 A 轮融资,累计融资额已达 5600 万美元;语音模型公司 Cartesia 在 3 月份完成了 6400 万美元的 A 轮融资,累计融资 9100 万美元;AI 语音合成公司 ElevenLabs 更是在 1 月份宣布完成 1.8 亿美元的 C 轮融资,估值超过 30 亿美元。
与此同时,无论是 Meta、OpenAI、Google 等科技巨头,还是 MiniMax 等创业公司,都在密集发布自己的语音模型或语音产品。Siri 也被曝出或将被 ChatGPT 或 Claude 等模型接管,来跟上语音交互的进展。
以下内容根据声智副总裁黄赟贺的讲述和声智的论文整理而成:
当我说「下一代对话交互的入口并非『Voice』,而是『Sound』」时,我指的是 AI 系统将不再仅仅依赖于识别你说的「词」,而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。
只有当 AI 能够全面感知并解析「Sound」中包含的这些多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」,它不仅仅是「听懂」字面意思,更是「听懂」你的「言外之意」和「心声」。
语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的「共情模式」。
狭义的「Voice」拓展到广义的「Sound」,当 AI 能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以去构建一个「声学世界模型」。
这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要「听清」和「听懂」,更要具备「声学常识」和「声学推理」的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。
未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再「失聪」和冰冷。(@ 极客公园)
更多 Voice Agent 学习笔记:
语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻