开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Kwai-Keye 发布 Keye-VL-2.0-30B-A3B 多模态模型

快手 Kwai-Keye 团队发布了 300 亿 参数级别的旗舰多模态基础模型 Keye-VL-2.0-30B-A3B,并在 Hugging Face 与 GitHub 上完全开源。

该模型是首个在生产环境中落地 DSA(DeepSeek Sparse Attention)的视觉语言模型,能够在保持计算效率的同时,对长达一小时的视频进行精准理解

并在 256K 超长上下文中实现近乎无损的推理。官方数据显示,在同级别模型中,其长视频理解能力表现最佳,并在多项精细时序感知基准上媲美或超越 Gemini 3 Flash 等顶级闭源模型。

作为 Keye 系列的首个 Agent-Ready 基础模型,它内置了系统级的编排机制,原生支持 Search、Tool 和 Code 场景。

图片

https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B

https://github.com/Kwai-Keye/Keye

(@ 橘鸦 Juya)

2、OpenMOSS 团队发布 MOSS-TTS-v1.5 与音效生成模型 MOSS-SoundEffect-v2.0

图片

OpenMOSS 团队发布了新一代语音合成模型 MOSS-TTS-v1.5 及文本到音效模型 MOSS-SoundEffect-v2.0。

MOSS-TTS-v1.5 保留了零样本克隆等基础能力,将多语种支持扩展至 31 种,在指定语言标签时合成质量高于前代,同时改进了长参考音频短文本克隆与标点韵律跟随,并支持内联标记控制停顿。

音效模型 MOSS-SoundEffect-v2.0 拥有 13 亿 参数,采用 DiT 架构与 Flow Matching 目标,支持根据中英文文本生成长达 30 秒 的 48 kHz 高保真音效。

两款模型均已在 Hugging Face 开源并提供推理代码。

https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5

https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0

(@ 橘鸦 Juya)

3、AudioHijack:通过人耳无法察觉音频劫持语音智能体

图片

浙江大学研究团队开发了一种名为「AudioHijack」的对抗性音频攻击技术,专门针对具备工具调用能力的大语音语言模型(LALM)。该技术通过在音频中嵌入人耳无法察觉的微观波形调整,使攻击者能够无需修改用户输入的指令,即可跨上下文劫持智能体(Agent)执行恶意工具调用、泄露数据或下载外源文件

论文地址:https://arxiv.org/abs/2604.14604

(@IEEE Spectrum)

02 有亮点的产品

1、XREAL 发布首款子品牌 AR 眼镜 xbx a01:整机重 62g,搭载双层 Micro OLED 与 1600nits 峰值亮度,售价 1699 元起

图片

AR 硬件厂商 XREAL 推出全新子品牌 xbx 及首款入门级 AR 眼镜 xbx a01,旨在通过低定价策略下沉年轻用户及入门级消费市场。该产品通过结构与材料重构将整机重量控制在 62g,并搭载双层 Micro OLED 方案以实现 1600nits 峰值亮度。在 XREAL 启动港股 IPO 进程的背景下,此举完成了其从入门级到高端空间计算领域的完整价格带布局。

图片

(@ 智东西)

2、Mondo Robotics 推出全地形相机机器人 Beni:支持 17.9 mph 极速、10 英寸自主越障与 4K 随动拍摄

硬件初创公司 Mondo Robotics 宣布即将推出其首款全地形相机机器人 Beni。该设备结合了可跨越 10 英寸障碍的高机动性底盘与智能随动算法,旨在为宠物拍摄、户外运动以及家庭场景提供低角度、自主跟踪的 4K 视频摄制方案。

(@mondorobotics)

3、极米控股 AI 眼镜品牌 MemoMind 获 6000 万元融资,披露双目 MicroLED 与 28.9g 单目产品线

图片

极米科技控股子公司、AI 眼镜品牌 MemoMind(运营主体为深圳市青睐创新智能技术有限公司)拟增资扩股,引入中金新兴基金等投资者合计 6000 万元资金。本轮融资设立了对赌条款,要求公司在2034年12月31日前完成合格上市,否则需按年化 6% 利率回购股份。该笔资金将用于加速其主动式 AI 系统及 MicroLED 光学眼镜的研发

@AING 硬迹)

03 有态度的观点

1、黄仁勋:AI 时代学什么不重要,讲故事、创造力才重要

图片

英伟达 CEO 黄仁勋近日在英国 Channel 4 播出的访谈中谈到 AI 时代的教育选择。他认为,今天最值得培养的是讲故事、创造力和判断力而不是提前押注某一个具体学科

无论你选择什么作为自己的热情所在,你唯一需要做的,就是问自己:人工智能如何能够提升我的学习、我的技艺、我的使命?

黄仁勋表示,过去人们很容易建议孩子学习物理、工程或计算机科学;但在 AI 可快速补足工具能力后,单一专业选择不再是唯一答案。

他的核心判断是,讲故事、创造力和判断力会继续保有价值。AI 可以像导师和教练一样帮助学生进入不同领域,学习者仍要提出好问题、组织信息、评估结果,并把复杂内容讲清楚。

黄仁勋把 AI 工具视为扩大教育反馈的方式:学生无论学习艺术、科学还是工程,都可以借助 AI 获得更快练习和解释。他没有替学生指定专业,而是把「如何用 AI 放大自己的判断」作为新的学习框架

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流