图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、清华等联合发布 UltraEval-Audio v1.1.0:引入隔离推理机制,支持 TTS/ASR/Codec 模型一键复现

图片

清华、OpenBMB、面壁智能联合发布 UltraEval-Audio v1.1.0 版本,在原有的「一键测评」音频模型的基础上,重点新增热门音频模型的一键复现能力,扩展对 TTS/ASR/Codec 等专业模型与专项评测的支持,并引入隔离推理运行机制,以在工程层面降低复现门槛、提升评测流程的可控性与可迁移性。

在 v1.1.0 中,打破了「仅评测通用音频大模型」的边界,将评测能力下探至 TTS(语音合成)、ASR(语音识别)与 Audio Codec(音频编解码)三大专有领域,打造全链路的音频评测基础设施。

v1.1.0 版本已在 GitHub 开源,并同步发布包含官方复现脚本与 Benchmark 报告的文档目录。

GitHub: 

https://github.com/OpenBMB/UltraEval-Audio

@OpenBMB 开源社区)

02 有亮点的产品

1、Looki 获蚂蚁美团 A 轮融资:自研「场景自适应智能」架构,实现 7.9 小时长时多模态记录

图片

AI 硬件初创公司「Looki」完成超 2000 万美元 A 轮融资,由蚂蚁集团领投、美团龙珠等多家机构跟投。公司产品 Looki L1 通过记录多模态上下文构建个人生活图谱,目前正从被动响应模式转向基于「场景自适应智能」的主动服务阶段。

( @Founder Park)

2、夸克 AI 眼镜更新:新增录音纪要、图文备忘录、大模型多意图理解与执行等功能

图片

昨天,搭载千问 AI 助手的夸克 AI 眼镜迎来首次 OTA 升级,新增录音纪要、图文备忘录、大模型多意图理解与执行、蓝环支付、社区服务五项功能,并同步优化翻译、行程查询、音乐播放等常用场景。

在录音场景中,升级后的夸克 AI 眼镜可实现十米范围内收音并有效降噪;系统可识别不同说话对象,对录音内容进行 AI 要点提炼,并自动生成待办事项。目前支持中文、英语、日语、韩语四种语言的录音转写及互译。

在备忘录场景中,用户可通过拍照或语音方式记录信息。系统具备 AI 分类与语义理解能力,可根据用户提问自动检索历史记录,如在询问「最近一个月我想买的家具有哪些」时,眼镜会汇总相关内容并给出结果。

本次升级的核心亮点是大模型支持的多意图理解与执行能力。相比多数仅能处理单一指令的 AI 眼镜,夸克 AI 眼镜已可理解并执行 2 至 3 个复合任务,如地图、音乐、日历等,提高工作与生活场景的效率。

随身翻译功能也同步增强,支持 89 种语言,覆盖英、日、韩、法、德等主流语种及多个国家和地区的小众语言,适用于跨境旅行与商务交流。

夸克 AI 眼镜目前已推出 S1、G1 两个系列共六款产品。作为阿里千问 C 端事业群的重要业务方向,千问 AI 助手正以 APP 为核心入口,加速向眼镜、PC、汽车等多终端延伸。

( @APPSO)

3、首款「语音转艺术」智能画布将亮相 CES 2026

图片

据 The Verge 报道,Fraimic 将在今年 CES 2026 上首次公开展示其号称「市场首款语音转艺术」的智能画布 Fraimic Smart Canvas。

据悉,Fraimic Smart Canvas 采用全彩 Spectra 6 电子墨水屏,主打类纸质哑光观感、无眩光显示,并因仅在「换画」时耗电,可实现多年级别的电池续航。

用户只需轻触画框边缘垫子并描述想看到的画面,系统即可在数秒内生成 AI 艺术作品。Fraimic 强调设备无需 App、无需订阅、不依赖云端,可在本地私密运行;用户也可通过手机访问本地网页上传图片,无需安装额外应用。

Fraimic 表示,该产品的核心理念是「以硬件为中心」,将其视为可长期使用的艺术展示载体,而非以 AI 为主导的数码设备。其设计获得 BIG SEE Product Design Award 2026 等多项国际奖项。

产品将提供两种尺寸:

支持上墙或搁架摆放,均为无电源线设计。预购价格分别为 399 美元与 999 美元,众筹平台 Kickstarter 预计今年 5 月发货,面向消费者的直销渠道预计今年 6 月启动。

Fraimic 去年完成预生产样机,并在 Kickstarter 上筹集超过 100 万美元,目前正与 Sungale Electronics 合作推进量产准备,包括测试、验证与合规流程。

( @APPSO)

4、Subtle 发布无线语音耳机:搭载定制芯片唤醒锁屏 iPhone,转录错误率较 AirPods Pro 3 降低 80%

图片

图片

语音 AI 初创公司 Subtle 推出集成原生语音隔离模型的无线耳机。该设备通过定制硬件实现了在 iPhone 锁定状态下的免按键 AI 唤醒与交互,旨在提供高精度的移动端语音输入接口。

售价 199 美元(包含一年期订阅),提供黑白两色,已在官网开启预购,预计未来几个月内在美国市场发货。

早些时间在 25 年 11 月,加州初创公司 Subtle Computing 宣布完成 600 万美元种子轮融资,由 Entrada Ventures 领投。该公司正通过其专有的语音分离模型,解决嘈杂环境下人声捕获的关键难题。

( @TechCrunch)

5、Plaud 升级录音胶囊 NotePin S,从硬件扩展至会议转录软件市场

硬件厂商「Plaud」于 CES 2026 前夕发布 AI 录音胶囊新版本「NotePin S」及配套桌面端应用程序。该更新标志着 Plaud 从单一的线下录音硬件扩展至线上会议转录市场,旨在通过硬件控制与多模态软件输入,构建完整的会议记录工作流。

图片

Plaud NotePin S 定价 179 美元,包含全套佩戴组件;每月提供 300 分钟免费转录额度。桌面端应用已同步上线。

( @TechCrunch)

03 有态度的观点 

1、Google 工程师:Claude Code 一小时完成团队一年工作量

图片

Google 资深工程师亚娜・多根(Jaana Dogan)近日在 X 平台公开表示,Anthropic 推出的 Claude Code 在仅一小时内生成了一套可用系统,其完成度已接近她所在团队过去一年构建的成果,引发业内广泛关注。

多根在 Google 负责 Gemini API 相关工作。她透露,此次测试中,她向 Claude Code 提交的提示词并不复杂,仅包含三段内容,且未使用任何 Google 内部资料,而是基于公开信息构建了一个简化版需求。

Claude Code 在短时间内生成的系统核心为「分布式智能体编排器」,用于协调多个人工智能体协同工作。多根称,Google 团队此前曾尝试多种技术路线,但始终未能达成一致。

她强调,Claude Code 的输出仍需进一步优化,但其整体表现已足够令人惊讶。

她建议对代码生成工具持怀疑态度的开发者,尝试在自身熟悉的专业领域进行测试,以获得更直观的判断。多根同时确认,Google 内部禁止在非开源项目中使用 Claude Code。

在被问及 Gemini 是否会达到类似能力时,多根回应称团队正在全力推进模型与工具链的研发。她表示,人工智能行业并非零和竞争,在竞争对手取得进展时给予肯定是合理的做法。

多根还回顾了人工智能辅助编程技术的演进,她坦言,过去对技术进展的预期已被现实超越:

多根近期在 X 上的发言也反映出她对行业现状的思考。她指出,软件行业复杂度与流程摩擦不断上升,开发者难以「直接把事情做成」,而围绕编码智能体的争议只是行业结构性问题的表象。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流