图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、智谱发布 GLM-5V-Turbo 多模态模型,原生多模态架构实现「图像即代码」

智谱 AI(ZAI)发布多模态 Coding 基座模型 GLM-5V-Turbo。该模型通过原生多模态预训练深度融合视觉与文本能力,支持 200k 上下文窗口,旨在将智能体的感知 - 行动链路从纯文本延伸至 GUI 视觉交互直接实现从设计稿、截图或录屏到可运行代码的转化

核心要点

ClawHub 链接:

https://clawhub.ai/zai-org/glm-master-skill

GitHub 链接:  

https://github.com/zai-org/GLM-skills

(@ 智谱)

2、Fish Audio 推出支持百种语言及情感标注的 STT 工具 

图片

Fish Audio 正式上线播客转录工具(Fish Audio STT),针对对话式音频优化,可自动识别多发言人并生成带有情感及副言语(Paralanguage)标记的文本。该工具旨在通过结构化元数据简化播客 SEO、字幕制作及语音再生产工作流

( @FishAudio\@X)

3、Gradium 发布端侧 TTS Phonon 内测链接:支持智能手机 CPU 本地运行

来自 Gradium X 账号:

「基于 API 的语音交互效果很好,但要扩展到数百万免费用户又是另一回事。」

Gradium Phonon:自然语音、多语言、语音克隆,可在智能手机 CPU 上本地运行无需服务器,无延迟,无每次通话成本

内测版现已开放,游戏开发者、应用构建者可点击下方链接申请:

https://gradium.ai/on-device-tts

( @Gradium AI)

4、无界方舟发布端到端硬件 AIOS「EVA」:支持自然语言驱动开发,语音交互延迟低于 250ms

近日,无界方舟宣布连续完成两轮 Pre-A 轮融资,由穿戴式设备品牌韶音以及国瑞源基金、恒松资本、上海天使会投资。过去一年内,无界方舟完成四轮融资,累计融资金额达数亿元

在无界方舟看来,「新一代硬件必须搭载新一代 AI 操作系统」。

区别于传统 OS,EVA OS 具备两方面创新:

自 EVA OS 1.0 发布三个月以来,据了解,已有超 2500 家企业与研发单位将其应用于硬件产品研发。

据介绍,无界方舟即将发布新一代 EVA OS,并同步推出原生 AIOS 智能硬件 EVA Pi。EVA Pi 深度集成 EVA OS,可在端侧原生完成 AI 应用开发、部署与持续迭代。

(@ 多知)

02 有亮点的产品

1、XREAL 冲刺港交所:或成「智能眼镜第一股」,销售收入连续四年位居全球之首

图片

于2026年4月1日正式向港交所递交招股说明书,拟主板挂牌上市,这意味着,XREAL 或将成为「智能眼镜第一股」。

成立于 2017 年的 XREAL 旗下产品线可归纳为三大主要系列:Air 系列、One 系列,以及 Light-Ultra-Aura 产品线:

图片

值得一提的是,XREAL 是一家「生而全球化」的中国科技企业——截至2025年12月31日,XREAL 的销售网络已覆盖 40 个国家和地区,且在北美、日本及韩国均设有本地销售与运营团队。2025 年,XREAL 超 70% 的收入来自海外市场

在 XREAL 看来,AR 眼镜的竞争优势在于产品技术栈关键层级的系统级整合,包括光学引擎、端侧协处理器架构、算法和操作系统。因此,XREAL 已构建了「自研光机 + 自研芯片」的核心护城河,并将 IPO 募集所得资金净额将主要用于持续的研发投资,包括技术开发与产品升级。

@IPO 早知道)

2、Vibe Island 发布:Mac 灵动岛实现 AI 智能体实时状态监控与跨终端任务审批

开发者 Edward.Luo 发布 Mac 端工具 Vibe Island,利用灵动岛为 AI 智能体提供原生交互接口。该应用解决了 Vibe Coding 场景下多并发任务导致的状态跟踪难问题,允许用户在不离开当前工作流的前提下,实时监控并审批多个终端智能体的运行状态

官网链接:vibeisland.app

@Edward.Luo@ 即刻)

3、Rokid 展示 AIUI 交互模式,以自然语言驱动 AI 眼镜全新体验

Rokid 的创始人兼 CEO 祝铭明在网上发布了一条视频,这一功能演示视频迅速窜热,Demo 视频中,佩戴乐奇 Rokid 眼镜的他,基于纯自然语言与 AI 交互,AI 直接实现复杂任务处理和多模态信息呈现,从查股价到查天气,AI 都给出了定制的、可视化图像结果。这一 Demo 视频,向我们展示了 AI 人机交互未来的一个重要趋势——

AIUI(以 AI 为核心的交互)的到来。

传统 GUI(图形用户界面)之下,用户直接充当了「路由器」的角色,在不同的信息孤岛(App)之间手动寻找、组合信息。

而在 AIUI 中,交互路径大幅缩短,几乎完全省去手的操作,只需要语言交互;AI 多模态内容生成输出可以实现从理解文本到呈现可视化图文信息的完整链路,AI 可以精准识别意图、提供多模态信息的按需呈现。

从信息获取模式上来看,从传统交互到 AIUI,就是从「人找 App」变为「AI 找人」——AI 精准识别意图、呈现定制化内容。

对于用户来说,体验升级十分明显——可视化呈现、更自然的交互、AI 更易用、好用,信息、服务获取更高效、操作更便捷;对开发者来说,AIUI 生态更加开放,前端/JS 开发者都可以快速加入 AI Agent 生态,快速让这套交互模式应用在自己的产品上,大幅降低门槛。

从行业层面来看,从「文字对话 AI」升级为「原生融合 AI」,这种 AI 交互范式的革新,为 AR 眼镜、空间计算、智能助手等场景奠定了下一代交互基础。

(@ 智东西)

03 有态度的观点

1、招聘顾问:AI 时代,求职者也要反向考察公司的 AI 成熟度

图片

随着 AI 技术加速渗透职场,求职者在面试中主动询问雇主的 AI 战略,已成为一项越来越重要的技能。

拥有约 30 年经验的招聘顾问 Jeff Hyman 表示,判断一家公司究竟是在真正落地 AI,还是仅仅在「讲故事」,是候选人在面试中需要完成的核心功课。

他建议直接询问公司今年的 AI 战略规划,以帮助候选人判断企业是将 AI 视为增长引擎,还是单纯的降本工具。

在工具层面,Hyman 认为,AI 访问权限的配置方式,是衡量一家公司对该技术重视程度最直接的信号。他认为,候选人完全有理由追问公司是否为员工提供付费 AI 工具,抑或只能依赖免费版本自行摸索。

那些在 AI 上抠门的公司,传递出的信号很明确——他们想要 AI 带来的红利,却不愿意为此投入。

职业教育平台 AdviceWithErin 创始人 Erin McGoff 提醒,要警惕那些「AI 醉驾」式的公司——即过度笃信 AI 将颠覆一切的企业,与之相对的,则是那些 AI 对业务几乎没有实质影响的公司,两种极端都值得留意。

最后,McGoff 建议候选人直接询问公司是否会提供系统性的 AI 培训与支持,还是将一切留给员工自行摸索。Mooney 也推荐以开放式问题收尾,例如「AI 如何影响你们的日常工作和业务?」以及「它如何改变了你管理团队的方式?」

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流